数据集:
masakhane/masakhaner2
任务:
标记分类计算机处理:
multilingual大小:
1K<n<10K语言创建人:
expert-generated批注创建人:
expert-generated源数据集:
original许可:
afl-3.0MasakhaNER 2.0 是由Masakhane社区创建的20种非洲语言命名实体识别(NER)的最大公开高质量数据集。
命名实体是包含人物、组织、地点、时间和数量名称的短语。例如:
[PER Wolff] ,目前是 [LOC 阿根廷] 的记者,在九十年代后期与 [PER Del Bosque] 在 [ORG 皇家马德里] 打球。
MasakhaNER 2.0 是一个包含PER、ORG、LOC和DATE实体的命名实体数据集,由Masakhane对20种非洲语言进行了注释。
所有20种语言的训练/验证/测试集均可获得。
更多详细信息请参见 https://arxiv.org/abs/2210.12391
[需要更多信息]
提供了20种语言:
阿肯卢旺达文的示例如下:
from datasets import load_dataset data = load_dataset('masakhane/masakhaner2', 'yor') # Please, specify the language code # A data point consists of sentences seperated by empty line and tab-seperated tokens and tags. {'id': '0', 'ner_tags': [B-DATE, I-DATE, 0, 0, 0, 0, 0, B-PER, I-PER, I-PER, O, O, O, O], 'tokens': ['Wákàtí', 'méje', 'ti', 'ré', 'kọjá', 'lọ', 'tí', 'Luis', 'Carlos', 'Díaz', 'ti', 'di', 'awati', '.'] }
NER标签对应于以下列表:
"O", "B-PER", "I-PER", "B-ORG", "I-ORG", "B-LOC", "I-LOC", "B-DATE", "I-DATE",
在NER标签中,B表示短语的第一个词,I表示非初始词。共有四种类型的短语:人名(PER)、组织(ORG)、地点(LOC)和日期及时间(DATE)。
假设命名实体是非递归和不重叠的。如果一个命名实体嵌套在另一个命名实体中,通常只标记顶级实体。
对于所有语言,有三种拆分。
原始拆分命名为“train”、“dev”和“test”,对应于“train”、“validation”和“test”拆分。
拆分的大小如下:
Language | train | validation | test |
---|---|---|---|
Bambara | 4463 | 638 | 1274 |
Ghomala | 3384 | 483 | 966 |
Ewe | 3505 | 501 | 1001 |
Fon. | 4343 | 621 | 1240 |
Hausa | 5716 | 816 | 1633 |
Igbo | 7634 | 1090 | 2181 |
Kinyarwanda | 7825 | 1118 | 2235 |
Luganda | 4942 | 706 | 1412 |
Luo | 5161 | 737 | 1474 |
Mossi | 4532 | 648 | 1613 |
Nigerian-Pidgin | 5646 | 806 | 1294 |
Chichewa | 6250 | 893 | 1785 |
chiShona | 6207 | 887 | 1773 |
Kiswahili | 6593 | 942 | 1883 |
Setswana | 3289 | 499 | 996 |
Akan/Twi | 4240 | 605 | 1211 |
Wolof | 4593 | 656 | 1312 |
isiXhosa | 5718 | 817 | 1633 |
Yoruba | 6877 | 983 | 1964 |
isiZulu | 5848 | 836 | 1670 |
该数据集的目的是为20种自然语言处理资源较少的语言引入新的资源。
[需要更多信息]
数据的来源是新闻领域,详细信息可以在此处找到 https://arxiv.org/abs/2210.12391
初始化的数据收集和标准化文章进行了单词分词处理,有关确切的预处理流程的信息不可用。
谁是原始语言的制作者?原始语言是由上述新闻机构和报纸雇佣的记者和作家制作的。
详细信息可以在此处找到 https://arxiv.org/abs/2103.11811
谁是标注者?注释者从 Masakhane 中招募
数据源自报纸来源,仅包含公众人物或个人的提及
[需要更多信息]
[需要更多信息]
用户应注意数据集仅包含新闻文本,这可能限制开发的系统在其他领域的适用性。
数据的许可状态为CC 4.0 Non-Commercial
为数据集提供 BibTex 格式的引用。例如:
@article{Adelani2022MasakhaNER2A, title={MasakhaNER 2.0: Africa-centric Transfer Learning for Named Entity Recognition}, author={David Ifeoluwa Adelani and Graham Neubig and Sebastian Ruder and Shruti Rijhwani and Michael Beukman and Chester Palen-Michel and Constantine Lignos and Jesujoba Oluwadara Alabi and Shamsuddeen Hassan Muhammad and Peter Nabende and Cheikh M. Bamba Dione and Andiswa Bukula and Rooweither Mabuya and Bonaventure F. P. Dossou and Blessing K. Sibanda and Happy Buzaaba and Jonathan Mukiibi and Godson Kalipe and Derguene Mbaye and Amelia Taylor and Fatoumata Kabore and Chris C. Emezue and Anuoluwapo Aremu and Perez Ogayo and Catherine W. Gitau and Edwin Munkoh-Buabeng and Victoire Memdjokam Koagne and Allahsera Auguste Tapo and Tebogo Macucwa and Vukosi Marivate and Elvis Mboning and Tajuddeen R. Gwadabe and Tosin P. Adewumi and Orevaoghene Ahia and Joyce Nakatumba-Nabende and Neo L. Mokono and Ignatius M Ezeani and Chiamaka Ijeoma Chukwuneke and Mofetoluwa Adeyemi and Gilles Hacheme and Idris Abdulmumin and Odunayo Ogundepo and Oreen Yousuf and Tatiana Moteu Ngoli and Dietrich Klakow}, journal={ArXiv}, year={2022}, volume={abs/2210.12391} }
感谢 @dadelani 添加了此数据集。