数据集:
yoruba_gv_ner
许可:
cc-by-3.0源数据集:
original批注创建人:
expert-generated语言创建人:
expert-generated大小:
1K<n<10K计算机处理:
monolingual语言:
yo任务:
标记分类Yoruba GV NER 是一个基于 Global Voices news 语料库的 Yorùbá 语言命名实体识别 (NER) 数据集。Global Voices (GV) 是一个多语种新闻平台,由来自世界各地的记者、翻译者、博客作者和人权活动家贡献文章,覆盖超过50种语言。创建 Yoruba GV NER 所使用的大部分文本都是从其他语言翻译成 Yorùbá 的。
[需要更多信息]
支持的语言是 Yorùbá。
数据点由由空行分隔的句子和以制表符分隔的标记和标签组成。{'id': '0', 'ner_tags': [B-LOC, 0, 0, 0, 0], 'tokens': ['Tanzania', 'fi', 'Ajìjàgbara', 'Ọmọ', 'Orílẹ̀-èdèe']}
NER标签对应于以下列表:
"O", "B-PER", "I-PER", "B-ORG", "I-ORG", "B-LOC", "I-LOC", "B-DATE", "I-DATE",
NER标签的格式与CoNLL共享任务中的格式相同: B 表示短语的第一个词,I 表示非初始词。有四种类型的短语: 人名(PER),组织(ORG),地点(LOC)和日期及时间(DATE)。 (O) 用于不被视为任何命名实体的标记。
训练集 (19,421 个标记)、验证集 (2,695 个标记) 和测试集拆分 (5,235 个标记)
创建这些数据是为了帮助介绍 Yorùbá 这种新语言的资源。
[需要更多信息]
此数据集基于新闻领域,并从 Global Voices Yorùbá news 中进行了抓取。
[需要更多信息]
谁是源语言的创作者?数据集由来自世界各地的记者、翻译者、博客作者和人权活动家贡献。创建 Yoruba GV NER 所使用的大部分文本都是从其他语言翻译成 Yorùbá [需要更多信息]
[需要更多信息]
谁是标注者?这些数据是由 Jesujoba Alabi 和 David Adelani 在 Massive vs. Curated Embeddings for Low-Resourced Languages: the case of Yorùbá and Twi 论文中进行的标注。
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
这些标注数据集是由德国萨尔布吕肯大学的学生开发的。
该数据集属于 Creative Commons Attribution 3.0
@inproceedings{alabi-etal-2020-massive, title = "Massive vs. Curated Embeddings for Low-Resourced Languages: the Case of {Y}or{\`u}b{\'a} and {T}wi", author = "Alabi, Jesujoba and Amponsah-Kaakyire, Kwabena and Adelani, David and Espa{\~n}a-Bonet, Cristina", booktitle = "Proceedings of the 12th Language Resources and Evaluation Conference", month = may, year = "2020", address = "Marseille, France", publisher = "European Language Resources Association", url = "https://www.aclweb.org/anthology/2020.lrec-1.335", pages = "2754--2762", language = "English", ISBN = "979-10-95546-34-4", }
感谢 @dadelani 提供此数据集。