数据集:

castorini/afriberta-corpus

英文

AfriBERTa Corpus 数据集卡片

数据集描述

数据集概述

这是用于 AfriBERTa 训练的语料库。数据集主要来自 BBC 新闻网站,但某些语言也包含了来自 Common Crawl 的数据。

支持的任务和排行榜

AfriBERTa 语料库主要用于预训练语言模型。

语言

afaanoromoo
amharic
gahuza
hausa
igbo
pidgin
somali
swahili
tigrinya
yoruba

加载数据集

加载索马里语训练集的示例:

dataset = load_dataset("castorini/afriberta-corpus", "somali", split="train")

加载皮钦语测试集的示例:

dataset = load_dataset("castorini/afriberta-corpus", "pidgin", split="test")

数据集结构

数据实例

每个数据点是一行文本。以下是 igbo 数据集的一个例子:

{"id": "6", "text": "Ngwá ọrụ na-echebe ma na-ebuli gị na kọmputa."}

数据字段

数据字段包括:

  • id:示例的id
  • text:文本内容

数据切分

每种语言都有训练集和测试集,大小各不相同。

使用数据的注意事项

偏见讨论

由于大部分数据来自 BBC 的新闻网站,因此在这个数据集上训练的模型很可能对新闻领域有偏见。

另外,由于部分数据来自 Common Crawl,请注意(特别是对于文本生成模型),因为可能包含个人和敏感信息。

其他信息

引用信息

@inproceedings{ogueji-etal-2021-small,
    title = "Small Data? No Problem! Exploring the Viability of Pretrained Multilingual Language Models for Low-resourced Languages",
    author = "Ogueji, Kelechi  and
      Zhu, Yuxin  and
      Lin, Jimmy",
    booktitle = "Proceedings of the 1st Workshop on Multilingual Representation Learning",
    month = nov,
    year = "2021",
    address = "Punta Cana, Dominican Republic",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2021.mrl-1.11",
    pages = "116--126",
}

贡献者

感谢 Kelechi Ogueji 添加此数据集。