数据集:
castorini/afriberta-corpus
这是用于 AfriBERTa 训练的语料库。数据集主要来自 BBC 新闻网站,但某些语言也包含了来自 Common Crawl 的数据。
AfriBERTa 语料库主要用于预训练语言模型。
afaanoromoo amharic gahuza hausa igbo pidgin somali swahili tigrinya yoruba
加载索马里语训练集的示例:
dataset = load_dataset("castorini/afriberta-corpus", "somali", split="train")
加载皮钦语测试集的示例:
dataset = load_dataset("castorini/afriberta-corpus", "pidgin", split="test")
每个数据点是一行文本。以下是 igbo 数据集的一个例子:
{"id": "6", "text": "Ngwá ọrụ na-echebe ma na-ebuli gị na kọmputa."}
数据字段包括:
每种语言都有训练集和测试集,大小各不相同。
由于大部分数据来自 BBC 的新闻网站,因此在这个数据集上训练的模型很可能对新闻领域有偏见。
另外,由于部分数据来自 Common Crawl,请注意(特别是对于文本生成模型),因为可能包含个人和敏感信息。
@inproceedings{ogueji-etal-2021-small, title = "Small Data? No Problem! Exploring the Viability of Pretrained Multilingual Language Models for Low-resourced Languages", author = "Ogueji, Kelechi and Zhu, Yuxin and Lin, Jimmy", booktitle = "Proceedings of the 1st Workshop on Multilingual Representation Learning", month = nov, year = "2021", address = "Punta Cana, Dominican Republic", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2021.mrl-1.11", pages = "116--126", }
感谢 Kelechi Ogueji 添加此数据集。