数据集:
Fraser/wiki_sentences
一个包含维基百科所有英文句子的数据集。
从OPTIMUS项目中获取。 https://github.com/ChunyuanLI/Optimus/blob/master/download_datasets.md
该数据集大小为11.8GB,最好使用流式加载:
from datasets import load_dataset dataset = load_dataset("Fraser/wiki_sentences", split='train', streaming=True)