数据集:

masakhane/masakhaner2

英文

数据集卡片:[数据集名称]

数据集概述

MasakhaNER 2.0 是由Masakhane社区创建的20种非洲语言命名实体识别(NER)的最大公开高质量数据集。

命名实体是包含人物、组织、地点、时间和数量名称的短语。例如:

[PER Wolff] ,目前是 [LOC 阿根廷] 的记者,在九十年代后期与 [PER Del Bosque] 在 [ORG 皇家马德里] 打球。

MasakhaNER 2.0 是一个包含PER、ORG、LOC和DATE实体的命名实体数据集,由Masakhane对20种非洲语言进行了注释。

所有20种语言的训练/验证/测试集均可获得。

更多详细信息请参见 https://arxiv.org/abs/2210.12391

支持的任务和排行榜

[需要更多信息]

  • 命名实体识别:通过 F1 衡量任务的性能(更高为更好)。仅当命名实体与数据中的相应实体完全匹配时,才认为是正确的命名实体。

语言

提供了20种语言:

  • 班巴拉语(bam)
  • 乔马拉语(bbj)
  • 厄维语(ewe)
  • 丰语(fon)
  • 豪萨语(hau)
  • 伊博语(ibo)
  • 肯尼亚卢旺达语(kin)
  • 卢干达语(lug)
  • 陶洛语(luo)
  • 莫西语(mos)
  • 齐切瓦语(nya)
  • 尼日利亚皮钦语
  • 雪诺语(sna)
  • 斯瓦希里语(swą)
  • 塞茨瓦纳语(tsn)
  • 特威语(twi)
  • 沃洛夫语(wol)
  • 西班牙语(xho)
  • 约鲁巴语(yor)
  • 祖鲁语(zul)

数据集结构

数据实例

阿肯卢旺达文的示例如下:

from datasets import load_dataset
data = load_dataset('masakhane/masakhaner2', 'yor') 

# Please, specify the language code

# A data point consists of sentences seperated by empty line and tab-seperated tokens and tags. 
{'id': '0',
 'ner_tags': [B-DATE, I-DATE, 0, 0, 0, 0, 0, B-PER, I-PER, I-PER, O, O, O, O],
 'tokens': ['Wákàtí', 'méje', 'ti', 'ré', 'kọjá', 'lọ', 'tí', 'Luis', 'Carlos', 'Díaz', 'ti', 'di', 'awati', '.']
}

数据字段

  • id:样本的ID
  • tokens:示例文本的标记
  • ner_tags:每个标记的NER标签

NER标签对应于以下列表:

"O", "B-PER", "I-PER", "B-ORG", "I-ORG", "B-LOC", "I-LOC", "B-DATE", "I-DATE",

在NER标签中,B表示短语的第一个词,I表示非初始词。共有四种类型的短语:人名(PER)、组织(ORG)、地点(LOC)和日期及时间(DATE)。

假设命名实体是非递归和不重叠的。如果一个命名实体嵌套在另一个命名实体中,通常只标记顶级实体。

数据拆分

对于所有语言,有三种拆分。

原始拆分命名为“train”、“dev”和“test”,对应于“train”、“validation”和“test”拆分。

拆分的大小如下:

Language train validation test
Bambara 4463 638 1274
Ghomala 3384 483 966
Ewe 3505 501 1001
Fon. 4343 621 1240
Hausa 5716 816 1633
Igbo 7634 1090 2181
Kinyarwanda 7825 1118 2235
Luganda 4942 706 1412
Luo 5161 737 1474
Mossi 4532 648 1613
Nigerian-Pidgin 5646 806 1294
Chichewa 6250 893 1785
chiShona 6207 887 1773
Kiswahili 6593 942 1883
Setswana 3289 499 996
Akan/Twi 4240 605 1211
Wolof 4593 656 1312
isiXhosa 5718 817 1633
Yoruba 6877 983 1964
isiZulu 5848 836 1670

数据集创建

策展理由

该数据集的目的是为20种自然语言处理资源较少的语言引入新的资源。

[需要更多信息]

数据源

数据的来源是新闻领域,详细信息可以在此处找到 https://arxiv.org/abs/2210.12391

初始化的数据收集和标准化

文章进行了单词分词处理,有关确切的预处理流程的信息不可用。

谁是原始语言的制作者?

原始语言是由上述新闻机构和报纸雇佣的记者和作家制作的。

注释

注释过程

详细信息可以在此处找到 https://arxiv.org/abs/2103.11811

谁是标注者?

注释者从 Masakhane 中招募

个人和敏感信息

数据源自报纸来源,仅包含公众人物或个人的提及

使用数据时的注意事项

数据集的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

用户应注意数据集仅包含新闻文本,这可能限制开发的系统在其他领域的适用性。

其他信息

数据集策展者

许可信息

数据的许可状态为CC 4.0 Non-Commercial

引用信息

为数据集提供 BibTex 格式的引用。例如:

@article{Adelani2022MasakhaNER2A,
  title={MasakhaNER 2.0: Africa-centric Transfer Learning for Named Entity Recognition},
  author={David Ifeoluwa Adelani and Graham Neubig and Sebastian Ruder and Shruti Rijhwani and Michael Beukman and Chester Palen-Michel and Constantine Lignos and Jesujoba Oluwadara Alabi and Shamsuddeen Hassan Muhammad and Peter Nabende and Cheikh M. Bamba Dione and Andiswa Bukula and Rooweither Mabuya and Bonaventure F. P. Dossou and Blessing K. Sibanda and Happy Buzaaba and Jonathan Mukiibi and Godson Kalipe and Derguene Mbaye and Amelia Taylor and Fatoumata Kabore and Chris C. Emezue and Anuoluwapo Aremu and Perez Ogayo and Catherine W. Gitau and Edwin Munkoh-Buabeng and Victoire Memdjokam Koagne and Allahsera Auguste Tapo and Tebogo Macucwa and Vukosi Marivate and Elvis Mboning and Tajuddeen R. Gwadabe and Tosin P. Adewumi and Orevaoghene Ahia and Joyce Nakatumba-Nabende and Neo L. Mokono and Ignatius M Ezeani and Chiamaka Ijeoma Chukwuneke and Mofetoluwa Adeyemi and Gilles Hacheme and Idris Abdulmumin and Odunayo Ogundepo and Oreen Yousuf and Tatiana Moteu Ngoli and Dietrich Klakow},
  journal={ArXiv},
  year={2022},
  volume={abs/2210.12391}
}

贡献

感谢 @dadelani 添加了此数据集。