AfriBERTa Corpus 数据集卡片

数据集描述

数据集概述

这是用于 AfriBERTa 训练的语料库。数据集主要来自 BBC 新闻网站，但某些语言也包含了来自 Common Crawl 的数据。

主页: https://github.com/keleog/afriberta
模型:
论文: https://aclanthology.org/2021.mrl-1.11/
联系人: kelechi.ogueji@uwaterloo.ca

支持的任务和排行榜

AfriBERTa 语料库主要用于预训练语言模型。

语言

afaanoromoo
amharic
gahuza
hausa
igbo
pidgin
somali
swahili
tigrinya
yoruba

加载数据集

加载索马里语训练集的示例：

dataset = load_dataset("castorini/afriberta-corpus", "somali", split="train")

加载皮钦语测试集的示例：

dataset = load_dataset("castorini/afriberta-corpus", "pidgin", split="test")

数据集结构

数据实例

每个数据点是一行文本。以下是 igbo 数据集的一个例子：

{"id": "6", "text": "Ngwá ọrụ na-echebe ma na-ebuli gị na kọmputa."}

数据字段

数据字段包括：

id：示例的id
text：文本内容

数据切分

每种语言都有训练集和测试集，大小各不相同。

使用数据的注意事项

偏见讨论

由于大部分数据来自 BBC 的新闻网站，因此在这个数据集上训练的模型很可能对新闻领域有偏见。

另外，由于部分数据来自 Common Crawl，请注意（特别是对于文本生成模型），因为可能包含个人和敏感信息。

其他信息

引用信息

@inproceedings{ogueji-etal-2021-small,
    title = "Small Data? No Problem! Exploring the Viability of Pretrained Multilingual Language Models for Low-resourced Languages",
    author = "Ogueji, Kelechi  and
      Zhu, Yuxin  and
      Lin, Jimmy",
    booktitle = "Proceedings of the 1st Workshop on Multilingual Representation Learning",
    month = nov,
    year = "2021",
    address = "Punta Cana, Dominican Republic",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2021.mrl-1.11",
    pages = "116--126",
}

贡献者

感谢 Kelechi Ogueji 添加此数据集。

作者:

castorini

数据集大小:

371.85 MB