数据集:
olm/wikipedia
本存储库是原始Hugging Face维基百科存储库 here 的派生版本。区别在于这个派生版本不再需要apache-beam,并且如果您的机器上有很多CPU,这个派生版本非常快。它将利用所有可用的CPU来创建一个干净的维基百科预训练数据集。在GCP n1-standard-96上处理所有英文维基百科不到一个小时。这个派生版本还被用于 OLM Project 来拉取并处理最新的维基百科快照。
包含所有语言的清理后的维基百科文章的维基百科数据集。这些数据集是从维基百科转储( https://dumps.wikimedia.org/ )构建的,每种语言一个拆分。每个示例包含一个完整维基百科文章的内容,并进行了清理以剥离markdown和不需要的部分(参考文献等)。
这些文章是使用mwparserfromhell工具解析的,并且我们使用multiprocess进行并行化处理。
要加载此数据集,您首先需要安装以下内容:
pip install mwparserfromhell==0.6.4 multiprocess==0.70.13
然后,您可以按照以下方式加载每种语言和每种日期的维基百科的任何子集:
from datasets import load_dataset load_dataset("olm/wikipedia", language="en", date="20220920")
您可以在此处找到支持的语言和日期的完整列表 here 。
该数据集通常用于语言建模。
您可以在此处找到支持的语言列表 here 。
一个示例如下所示:
{'id': '1', 'url': 'https://simple.wikipedia.org/wiki/April', 'title': 'April', 'text': 'April is the fourth month...' }
所有配置的数据字段都相同:
维基百科的大部分文本和许多图片都是根据 Creative Commons Attribution-ShareAlike 3.0 Unported License (CC BY-SA)和 GNU Free Documentation License (GFDL)(未版本化,没有不变的章节、封面文字或封底文字)进行共许可的。
一些文本仅根据CC BY-SA和CC BY-SA兼容许可证导入,不能在GFDL下再次使用;这样的文本将在页面页脚、页面历史或使用文本的文章的讨论页面中进行标识。
@ONLINE{wikidump, author = "Wikimedia Foundation", title = "Wikimedia Downloads", url = "https://dumps.wikimedia.org" }