数据集:
masakhaner
任务:
标记分类计算机处理:
multilingual大小:
10K<n<100K语言创建人:
expert-generated批注创建人:
expert-generated源数据集:
original预印本库:
arxiv:2103.11811许可:
license:unknownMasakhaNER 是第一个包含十种非洲语言的命名实体识别(NER)高质量公开数据集。
命名实体是包含人物、组织、地点、时间和数量名称的短语。例如:
[PER Wolff],目前在[LOC Argentina]担任记者,在[ORG Real Madrid]的七十年代末与[PER Del Bosque]共同效力。
MasakhaNER 是一个由 Masakhane 为十种非洲语言注释 PER、ORG、LOC 和 DATE 实体的命名实体数据集:
所有十种语言都有训练/验证/测试集可用。
更多详细信息请参见 https://arxiv.org/abs/2103.11811
[需要更多信息]
有十种语言可用:
对于 Yorùbá,示例如下:
from datasets import load_dataset data = load_dataset('masakhaner', 'yor') # Please, specify the language code # A data point consists of sentences seperated by empty line and tab-seperated tokens and tags. {'id': '0', 'ner_tags': [B-DATE, I-DATE, 0, 0, 0, 0, 0, B-PER, I-PER, I-PER, O, O, O, O], 'tokens': ['Wákàtí', 'méje', 'ti', 'ré', 'kọjá', 'lọ', 'tí', 'Luis', 'Carlos', 'Díaz', 'ti', 'di', 'awati', '.'] }
NER 标签对应以下列表:
"O", "B-PER", "I-PER", "B-ORG", "I-ORG", "B-LOC", "I-LOC", "B-DATE", "I-DATE",
在 NER 标签中,B 表示短语的第一个词,I 表示非初始词。有四种短语类型:人名 (PER)、组织名 (ORG)、地点名 (LOC) 和日期/时间 (DATE)。
假设命名实体是非递归且不重叠的。如果一个命名实体嵌套在另一个命名实体中,通常只标记顶层实体。
对于所有语言,有三种拆分。
原始拆分被命名为 train、dev 和 test,它们对应于训练、验证和测试拆分。
拆分的大小如下:
Language | train | validation | test |
---|---|---|---|
Amharic | 1750 | 250 | 500 |
Hausa | 1903 | 272 | 545 |
Igbo | 2233 | 319 | 638 |
Kinyarwanda | 2110 | 301 | 604 |
Luganda | 2003 | 200 | 401 |
Luo | 644 | 92 | 185 |
Nigerian-Pidgin | 2100 | 300 | 600 |
Swahili | 2104 | 300 | 602 |
Wolof | 1871 | 267 | 536 |
Yoruba | 2124 | 303 | 608 |
数据集的目的是为了为十种语言引入新的资源,这些语言在自然语言处理中资源匮乏。
[需要更多信息]
数据的来源是新闻领域,详细信息可以在此处找到 https://arxiv.org/abs/2103.11811
初始化数据收集和规范化
文章已进行词标记,关于确切的预处理流程的信息不可用。
谁是源语言的制作者?源语言由上述新闻机构和报纸雇佣的记者和作家制作。
详细信息可以在此处找到 https://arxiv.org/abs/2103.11811
谁是标注者?注释者是从 Masakhane 招募的。
数据的来源是新闻来源,仅包含公众人物或个人的提及。
[需要更多信息]
[需要更多信息]
用户应注意,数据集仅包含新闻文本,这可能限制所开发系统的适用性于其他领域。
数据的许可状态为 CC 4.0 非商业性许可。
提供数据集的 BibTex 格式化引用信息。例如:
@article{Adelani2021MasakhaNERNE, title={MasakhaNER: Named Entity Recognition for African Languages}, author={D. Adelani and Jade Abbott and Graham Neubig and Daniel D'Souza and Julia Kreutzer and Constantine Lignos and Chester Palen-Michel and Happy Buzaaba and Shruti Rijhwani and Sebastian Ruder and Stephen Mayhew and Israel Abebe Azime and S. Muhammad and Chris C. Emezue and Joyce Nakatumba-Nabende and Perez Ogayo and Anuoluwapo Aremu and Catherine Gitau and Derguene Mbaye and J. Alabi and Seid Muhie Yimam and Tajuddeen R. Gwadabe and Ignatius Ezeani and Rubungo Andre Niyongabo and Jonathan Mukiibi and V. Otiende and Iroro Orife and Davis David and Samba Ngom and Tosin P. Adewumi and Paul Rayson and Mofetoluwa Adeyemi and Gerald Muriuki and Emmanuel Anebi and C. Chukwuneke and N. Odu and Eric Peter Wairagala and S. Oyerinde and Clemencia Siro and Tobius Saul Bateesa and Temilola Oloyede and Yvonne Wambui and Victor Akinode and Deborah Nabagereka and Maurice Katusiime and Ayodele Awokoya and Mouhamadane Mboup and D. Gebreyohannes and Henok Tilaye and Kelechi Nwaike and Degaga Wolde and Abdoulaye Faye and Blessing Sibanda and Orevaoghene Ahia and Bonaventure F. P. Dossou and Kelechi Ogueji and Thierno Ibrahima Diop and A. Diallo and Adewale Akinfaderin and T. Marengereke and Salomey Osei}, journal={ArXiv}, year={2021}, volume={abs/2103.11811} }
感谢 @dadelani 添加了这个数据集。