数据集:

masakhane/masakhaner2

任务:

标记分类

子任务:

named-entity-recognition

语言:

language:bbj

计算机处理:

multilingual

大小:

1K<n<10K

语言创建人:

expert-generated

批注创建人:

expert-generated

源数据集:

original

预印本库:

arxiv:2103.11811 arxiv:2210.12391

其他:

ner masakhaner masakhane

许可:

afl-3.0

数据集介绍文件清单

英文

数据集卡片：[数据集名称]

数据集概述

MasakhaNER 2.0 是由Masakhane社区创建的20种非洲语言命名实体识别（NER）的最大公开高质量数据集。

命名实体是包含人物、组织、地点、时间和数量名称的短语。例如：

[PER Wolff] ，目前是 [LOC 阿根廷] 的记者，在九十年代后期与 [PER Del Bosque] 在 [ORG 皇家马德里] 打球。

MasakhaNER 2.0 是一个包含PER、ORG、LOC和DATE实体的命名实体数据集，由Masakhane对20种非洲语言进行了注释。

所有20种语言的训练/验证/测试集均可获得。

更多详细信息请参见 https://arxiv.org/abs/2210.12391

支持的任务和排行榜

[需要更多信息]

命名实体识别：通过 F1 衡量任务的性能（更高为更好）。仅当命名实体与数据中的相应实体完全匹配时，才认为是正确的命名实体。

语言

提供了20种语言：

班巴拉语（bam）
乔马拉语（bbj）
厄维语（ewe）
丰语（fon）
豪萨语（hau）
伊博语（ibo）
肯尼亚卢旺达语（kin）
卢干达语（lug）
陶洛语（luo）
莫西语（mos）
齐切瓦语（nya）
尼日利亚皮钦语
雪诺语（sna）
斯瓦希里语（swą）
塞茨瓦纳语（tsn）
特威语（twi）
沃洛夫语（wol）
西班牙语（xho）
约鲁巴语（yor）
祖鲁语（zul）

数据集结构

数据实例

阿肯卢旺达文的示例如下：

from datasets import load_dataset
data = load_dataset('masakhane/masakhaner2', 'yor') 

# Please, specify the language code

# A data point consists of sentences seperated by empty line and tab-seperated tokens and tags. 
{'id': '0',
 'ner_tags': [B-DATE, I-DATE, 0, 0, 0, 0, 0, B-PER, I-PER, I-PER, O, O, O, O],
 'tokens': ['Wákàtí', 'méje', 'ti', 'ré', 'kọjá', 'lọ', 'tí', 'Luis', 'Carlos', 'Díaz', 'ti', 'di', 'awati', '.']
}

数据字段

id：样本的ID
tokens：示例文本的标记
ner_tags：每个标记的NER标签

NER标签对应于以下列表：

"O", "B-PER", "I-PER", "B-ORG", "I-ORG", "B-LOC", "I-LOC", "B-DATE", "I-DATE",

在NER标签中，B表示短语的第一个词，I表示非初始词。共有四种类型的短语：人名（PER）、组织（ORG）、地点（LOC）和日期及时间（DATE）。

假设命名实体是非递归和不重叠的。如果一个命名实体嵌套在另一个命名实体中，通常只标记顶级实体。

数据拆分

对于所有语言，有三种拆分。

原始拆分命名为“train”、“dev”和“test”，对应于“train”、“validation”和“test”拆分。

拆分的大小如下：

Language	train	validation	test
Bambara	4463	638	1274
Ghomala	3384	483	966
Ewe	3505	501	1001
Fon.	4343	621	1240
Hausa	5716	816	1633
Igbo	7634	1090	2181
Kinyarwanda	7825	1118	2235
Luganda	4942	706	1412
Luo	5161	737	1474
Mossi	4532	648	1613
Nigerian-Pidgin	5646	806	1294
Chichewa	6250	893	1785
chiShona	6207	887	1773
Kiswahili	6593	942	1883
Setswana	3289	499	996
Akan/Twi	4240	605	1211
Wolof	4593	656	1312
isiXhosa	5718	817	1633
Yoruba	6877	983	1964
isiZulu	5848	836	1670

数据集创建

策展理由

该数据集的目的是为20种自然语言处理资源较少的语言引入新的资源。

[需要更多信息]

数据源

数据的来源是新闻领域，详细信息可以在此处找到 https://arxiv.org/abs/2210.12391

初始化的数据收集和标准化

文章进行了单词分词处理，有关确切的预处理流程的信息不可用。

谁是原始语言的制作者？

原始语言是由上述新闻机构和报纸雇佣的记者和作家制作的。

注释

注释过程

详细信息可以在此处找到 https://arxiv.org/abs/2103.11811

谁是标注者？

注释者从 Masakhane 中招募

个人和敏感信息

数据源自报纸来源，仅包含公众人物或个人的提及

使用数据时的注意事项

数据集的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

用户应注意数据集仅包含新闻文本，这可能限制开发的系统在其他领域的适用性。

其他信息

数据集策展者

许可信息

数据的许可状态为CC 4.0 Non-Commercial

引用信息

为数据集提供 BibTex 格式的引用。例如：

@article{Adelani2022MasakhaNER2A,
  title={MasakhaNER 2.0: Africa-centric Transfer Learning for Named Entity Recognition},
  author={David Ifeoluwa Adelani and Graham Neubig and Sebastian Ruder and Shruti Rijhwani and Michael Beukman and Chester Palen-Michel and Constantine Lignos and Jesujoba Oluwadara Alabi and Shamsuddeen Hassan Muhammad and Peter Nabende and Cheikh M. Bamba Dione and Andiswa Bukula and Rooweither Mabuya and Bonaventure F. P. Dossou and Blessing K. Sibanda and Happy Buzaaba and Jonathan Mukiibi and Godson Kalipe and Derguene Mbaye and Amelia Taylor and Fatoumata Kabore and Chris C. Emezue and Anuoluwapo Aremu and Perez Ogayo and Catherine W. Gitau and Edwin Munkoh-Buabeng and Victoire Memdjokam Koagne and Allahsera Auguste Tapo and Tebogo Macucwa and Vukosi Marivate and Elvis Mboning and Tajuddeen R. Gwadabe and Tosin P. Adewumi and Orevaoghene Ahia and Joyce Nakatumba-Nabende and Neo L. Mokono and Ignatius M Ezeani and Chiamaka Ijeoma Chukwuneke and Mofetoluwa Adeyemi and Gilles Hacheme and Idris Abdulmumin and Odunayo Ogundepo and Oreen Yousuf and Tatiana Moteu Ngoli and Dietrich Klakow},
  journal={ArXiv},
  year={2022},
  volume={abs/2210.12391}
}

贡献

感谢 @dadelani 添加了此数据集。

作者:

masakhane

数据集大小:

19.11 KB