数据集:

yoruba_gv_ner

许可:

cc-by-3.0

源数据集:

original

批注创建人:

expert-generated

语言创建人:

expert-generated

大小:

1K<n<10K

计算机处理:

monolingual

语言:

yo
英文

Yoruba GV NER Corpus 数据集卡片

数据集简介

Yoruba GV NER 是一个基于 Global Voices news 语料库的 Yorùbá 语言命名实体识别 (NER) 数据集。Global Voices (GV) 是一个多语种新闻平台,由来自世界各地的记者、翻译者、博客作者和人权活动家贡献文章,覆盖超过50种语言。创建 Yoruba GV NER 所使用的大部分文本都是从其他语言翻译成 Yorùbá 的。

支持的任务和排行榜

[需要更多信息]

语言

支持的语言是 Yorùbá。

数据集结构

数据实例

数据点由由空行分隔的句子和以制表符分隔的标记和标签组成。{'id': '0', 'ner_tags': [B-LOC, 0, 0, 0, 0], 'tokens': ['Tanzania', 'fi', 'Ajìjàgbara', 'Ọmọ', 'Orílẹ̀-èdèe']}

数据字段

  • id: 样本的id
  • tokens: 示例文本的标记
  • ner_tags: 每个标记的NER标签

NER标签对应于以下列表:

"O", "B-PER", "I-PER", "B-ORG", "I-ORG", "B-LOC", "I-LOC", "B-DATE", "I-DATE",

NER标签的格式与CoNLL共享任务中的格式相同: B 表示短语的第一个词,I 表示非初始词。有四种类型的短语: 人名(PER),组织(ORG),地点(LOC)和日期及时间(DATE)。 (O) 用于不被视为任何命名实体的标记。

数据拆分

训练集 (19,421 个标记)、验证集 (2,695 个标记) 和测试集拆分 (5,235 个标记)

数据集创建

策划原因

创建这些数据是为了帮助介绍 Yorùbá 这种新语言的资源。

[需要更多信息]

来源数据

初始数据采集与规范化

此数据集基于新闻领域,并从 Global Voices Yorùbá news 中进行了抓取。

[需要更多信息]

谁是源语言的创作者?

数据集由来自世界各地的记者、翻译者、博客作者和人权活动家贡献。创建 Yoruba GV NER 所使用的大部分文本都是从其他语言翻译成 Yorùbá [需要更多信息]

标注

标注过程

[需要更多信息]

谁是标注者?

这些数据是由 Jesujoba Alabi 和 David Adelani 在 Massive vs. Curated Embeddings for Low-Resourced Languages: the case of Yorùbá and Twi 论文中进行的标注。

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用该数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策划者

这些标注数据集是由德国萨尔布吕肯大学的学生开发的。

许可信息

该数据集属于 Creative Commons Attribution 3.0

引用信息

@inproceedings{alabi-etal-2020-massive,
    title = "Massive vs. Curated Embeddings for Low-Resourced Languages: the Case of {Y}or{\`u}b{\'a} and {T}wi",
    author = "Alabi, Jesujoba  and
      Amponsah-Kaakyire, Kwabena  and
      Adelani, David  and
      Espa{\~n}a-Bonet, Cristina",
    booktitle = "Proceedings of the 12th Language Resources and Evaluation Conference",
    month = may,
    year = "2020",
    address = "Marseille, France",
    publisher = "European Language Resources Association",
    url = "https://www.aclweb.org/anthology/2020.lrec-1.335",
    pages = "2754--2762",
    language = "English",
    ISBN = "979-10-95546-34-4",
}

贡献

感谢 @dadelani 提供此数据集。