数据集:

IlyaGusev/librusec

语言:

ru

大小:

100K<n<1M
英文

Librusec数据集

描述

概要:基于 http://panchenko.me/data/russe/librusec_fb2.plain.gz 。为方便起见,已上传至此处。进行了额外的清理。

脚本: create_librusec.py

联系人:Ilya Gusev

语言:俄语。

用法

先决条件:

pip install datasets zstandard jsonlines pysimdjson

数据集迭代:

from datasets import load_dataset
dataset = load_dataset('IlyaGusev/librusec', split="train", streaming=True)
for example in dataset:
    print(example["text"])