数据集:

masakhaner

计算机处理:

multilingual

大小:

10K<n<100K

语言创建人:

expert-generated

批注创建人:

expert-generated

源数据集:

original

预印本库:

arxiv:2103.11811
英文

MasakhaNER 数据集卡片

数据集概述

MasakhaNER 是第一个包含十种非洲语言的命名实体识别(NER)高质量公开数据集。

命名实体是包含人物、组织、地点、时间和数量名称的短语。例如:

[PER Wolff],目前在[LOC Argentina]担任记者,在[ORG Real Madrid]的七十年代末与[PER Del Bosque]共同效力。

MasakhaNER 是一个由 Masakhane 为十种非洲语言注释 PER、ORG、LOC 和 DATE 实体的命名实体数据集:

  • Amharic
  • Hausa
  • Igbo
  • Kinyarwanda
  • Luganda
  • Luo
  • Nigerian-Pidgin
  • Swahili
  • Wolof
  • Yoruba

所有十种语言都有训练/验证/测试集可用。

更多详细信息请参见 https://arxiv.org/abs/2103.11811

支持的任务和排行榜

[需要更多信息]

  • named-entity-recognition:该任务的性能使用 F1 进行衡量(值越高越好)。仅当命名实体与数据中对应实体完全匹配时,才算命名实体标注正确。

语言

有十种语言可用:

  • Amharic (amh)
  • Hausa (hau)
  • Igbo (ibo)
  • Kinyarwanda (kin)
  • Luganda (kin)
  • Luo (luo)
  • Nigerian-Pidgin (pcm)
  • Swahili (swa)
  • Wolof (wol)
  • Yoruba (yor)

数据集结构

数据实例

对于 Yorùbá,示例如下:

from datasets import load_dataset
data = load_dataset('masakhaner', 'yor') 

# Please, specify the language code

# A data point consists of sentences seperated by empty line and tab-seperated tokens and tags. 
{'id': '0',
 'ner_tags': [B-DATE, I-DATE, 0, 0, 0, 0, 0, B-PER, I-PER, I-PER, O, O, O, O],
 'tokens': ['Wákàtí', 'méje', 'ti', 'ré', 'kọjá', 'lọ', 'tí', 'Luis', 'Carlos', 'Díaz', 'ti', 'di', 'awati', '.']
}

数据字段

  • id:样本的ID
  • tokens:示例文本的标记
  • ner_tags:每个标记的NER标签

NER 标签对应以下列表:

"O", "B-PER", "I-PER", "B-ORG", "I-ORG", "B-LOC", "I-LOC", "B-DATE", "I-DATE",

在 NER 标签中,B 表示短语的第一个词,I 表示非初始词。有四种短语类型:人名 (PER)、组织名 (ORG)、地点名 (LOC) 和日期/时间 (DATE)。

假设命名实体是非递归且不重叠的。如果一个命名实体嵌套在另一个命名实体中,通常只标记顶层实体。

数据拆分

对于所有语言,有三种拆分。

原始拆分被命名为 train、dev 和 test,它们对应于训练、验证和测试拆分。

拆分的大小如下:

Language train validation test
Amharic 1750 250 500
Hausa 1903 272 545
Igbo 2233 319 638
Kinyarwanda 2110 301 604
Luganda 2003 200 401
Luo 644 92 185
Nigerian-Pidgin 2100 300 600
Swahili 2104 300 602
Wolof 1871 267 536
Yoruba 2124 303 608

数据集创建

策划理由

数据集的目的是为了为十种语言引入新的资源,这些语言在自然语言处理中资源匮乏。

[需要更多信息]

数据来源

数据的来源是新闻领域,详细信息可以在此处找到 https://arxiv.org/abs/2103.11811

初始化数据收集和规范化

文章已进行词标记,关于确切的预处理流程的信息不可用。

谁是源语言的制作者?

源语言由上述新闻机构和报纸雇佣的记者和作家制作。

注释

注释过程

详细信息可以在此处找到 https://arxiv.org/abs/2103.11811

谁是标注者?

注释者是从 Masakhane 招募的。

个人和敏感信息

数据的来源是新闻来源,仅包含公众人物或个人的提及。

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

用户应注意,数据集仅包含新闻文本,这可能限制所开发系统的适用性于其他领域。

额外信息

数据集策划者

许可信息

数据的许可状态为 CC 4.0 非商业性许可。

引用信息

提供数据集的 BibTex 格式化引用信息。例如:

@article{Adelani2021MasakhaNERNE,
  title={MasakhaNER: Named Entity Recognition for African Languages},
  author={D. Adelani and Jade Abbott and Graham Neubig and Daniel D'Souza and Julia Kreutzer and Constantine Lignos 
  and Chester Palen-Michel and Happy Buzaaba and Shruti Rijhwani and Sebastian Ruder and Stephen Mayhew and 
  Israel Abebe Azime and S. Muhammad and Chris C. Emezue and Joyce Nakatumba-Nabende and Perez Ogayo and 
  Anuoluwapo Aremu and Catherine Gitau and Derguene Mbaye and J. Alabi and Seid Muhie Yimam and Tajuddeen R. Gwadabe and
  Ignatius Ezeani and Rubungo Andre Niyongabo and Jonathan Mukiibi and V. Otiende and Iroro Orife and Davis David and 
  Samba Ngom and Tosin P. Adewumi and Paul Rayson and Mofetoluwa Adeyemi and Gerald Muriuki and Emmanuel Anebi and 
  C. Chukwuneke and N. Odu and Eric Peter Wairagala and S. Oyerinde and Clemencia Siro and Tobius Saul Bateesa and 
  Temilola Oloyede and Yvonne Wambui and Victor Akinode and Deborah Nabagereka and Maurice Katusiime and 
  Ayodele Awokoya and Mouhamadane Mboup and D. Gebreyohannes and Henok Tilaye and Kelechi Nwaike and Degaga Wolde and
   Abdoulaye Faye and Blessing Sibanda and Orevaoghene Ahia and Bonaventure F. P. Dossou and Kelechi Ogueji and 
   Thierno Ibrahima Diop and A. Diallo and Adewale Akinfaderin and T. Marengereke and Salomey Osei},
  journal={ArXiv},
  year={2021},
  volume={abs/2103.11811}
}

贡献

感谢 @dadelani 添加了这个数据集。