数据集:
wikipedia
维基百科数据集包含所有语言的已清理文章。这些数据集是从维基百科转储文件( https://dumps.wikimedia.org/ )构建的,每种语言有一个分区。每个示例包含清理后的一个完整维基百科文章的内容,去除了markdown和不需要的部分(引用等)。
文章是使用mwparserfromhell工具解析的。
要加载此数据集,首先需要安装Apache Beam和mwparserfromhell:
pip install apache_beam mwparserfromhell
然后,您可以通过以下方式加载每种语言和日期的任何子集:
from datasets import load_dataset load_dataset("wikipedia", language="sw", date="20220120", beam_runner=...)
其中,您可以将beam_runner作为任何Apache Beam支持的(分布式)数据处理运行器传递(请参阅 here )。将其设置为"DirectRunner"可在本机上运行。
您可以找到完整的语言和日期列表 here 。
HuggingFace已经对维基百科的一些子集进行了处理,您可以直接加载它们:
from datasets import load_dataset load_dataset("wikipedia", "20220301.en")
预处理子集的列表如下:
该数据集通常用于语言建模。
您可以在此找到语言列表 here 。
一个示例如下所示:
{'id': '1', 'url': 'https://simple.wikipedia.org/wiki/April', 'title': 'April', 'text': 'April is the fourth month...' }
HuggingFace已经对维基百科的一些子集进行了处理,如下所示:
20220301.de所有配置的数据字段相同:
这里是几个配置的示例数:
name | train |
---|---|
20220301.de | 2665357 |
20220301.en | 6458670 |
20220301.fr | 2402095 |
20220301.frr | 15199 |
20220301.it | 1743035 |
20220301.simple | 205328 |
维基百科的大部分文字和许多图像都是根据 Creative Commons Attribution-ShareAlike 3.0 Unported License (CC BY-SA)和 GNU Free Documentation License (GFDL)(未版本化,没有不变部分、封面文字或封底文字)共同许可的。
一些文本仅在CC BY-SA和CC BY-SA兼容许可下导入,不能在GFDL下再次使用;这样的文本将在页面页脚、页面历史记录或使用文本的文章的讨论页面上进行标识。
@ONLINE{wikidump, author = "Wikimedia Foundation", title = "Wikimedia Downloads", url = "https://dumps.wikimedia.org" }
感谢 @lewtun 、 @mariamabarham 、 @thomwolf 、 @lhoestq 、 @patrickvonplaten 添加了此数据集。