数据集:

IlyaGusev/stihi_ru

语言:

ru

大小:

1M<n<10M
英文

Stihi.ru数据集

描述

摘要:这是一个包含 Taiga 个样本的子集,为方便起见上传在此。进行了额外的清理。

脚本: create_stihi.py

联系人:Ilya Gusev

语言:俄语

用法

先决条件:

pip install datasets zstandard jsonlines pysimdjson

数据集迭代:

from datasets import load_dataset
dataset = load_dataset('IlyaGusev/stihi_ru', split="train", streaming=True)
for example in dataset:
    print(example["text"])

个人和敏感信息

该数据集未进行匿名处理,因此数据集中可能包含个人姓名。在可能的情况下,数据集中包含原始作者的信息。