摘要:这是一个包含 Taiga 个样本的子集,为方便起见上传在此。进行了额外的清理。
脚本: create_stihi.py
联系人:Ilya Gusev
语言:俄语
先决条件:
pip install datasets zstandard jsonlines pysimdjson
数据集迭代:
from datasets import load_dataset dataset = load_dataset('IlyaGusev/stihi_ru', split="train", streaming=True) for example in dataset: print(example["text"])
该数据集未进行匿名处理,因此数据集中可能包含个人姓名。在可能的情况下,数据集中包含原始作者的信息。