数据集:

Fraser/wiki_sentences

英文

维基句子

一个包含维基百科所有英文句子的数据集。

从OPTIMUS项目中获取。 https://github.com/ChunyuanLI/Optimus/blob/master/download_datasets.md

该数据集大小为11.8GB,最好使用流式加载:

from datasets import load_dataset
dataset = load_dataset("Fraser/wiki_sentences", split='train', streaming=True)