概要:基于 http://panchenko.me/data/russe/librusec_fb2.plain.gz 。为方便起见,已上传至此处。进行了额外的清理。
联系人:Ilya Gusev
语言:俄语。
先决条件:
pip install datasets zstandard jsonlines pysimdjson
数据集迭代:
from datasets import load_dataset dataset = load_dataset('IlyaGusev/librusec', split="train", streaming=True) for example in dataset: print(example["text"])