数据集:

hausa_voa_ner

语言:

ha

计算机处理:

monolingual

大小:

1K<n<10K

语言创建人:

expert-generated

批注创建人:

expert-generated

源数据集:

original

许可:

cc-by-4.0
英文

Hausa VOA NER语料库数据集卡

数据集概览

Hausa VOA NER是基于 VOA Hausa news 语料库的Hausa语言命名实体识别(NER)数据集。

支持的任务和排行榜

[需要更多信息]

语言

受支持的语言为Hausa。

数据集结构

数据实例

数据点由以空行分隔的句子和以制表符分隔的标记和标签组成。 {'id': '0','ner_tags':['B-PER',0,0,'B-LOC',0],'tokens':['Trump','ya','ce','Rasha','ma']}

数据字段

  • id:样本的id
  • tokens:示例文本的标记
  • ner_tags:每个标记的NER标签

NER标签对应以下列表:

"O", "B-PER", "I-PER", "B-ORG", "I-ORG", "B-LOC", "I-LOC", "B-DATE", "I-DATE",

NER标签的格式与CoNLL共享任务相同:B表示短语的第一个项目,I表示任何非初始词。有四种类型的短语:人名(PER),组织机构(ORG),地点(LOC)和日期和时间(DATE)。对于不被视为任何命名实体的标记,使用(O)。

数据拆分

训练集(1,014个句子),验证集(145个句子)和测试集(291个句子)

数据集创建

策划理由

创建该数据是为了帮助介绍自然语言处理资源给新的语言 - Hausa。

[需要更多信息]

源数据

初始数据收集和归一化

该数据集基于新闻领域,并从 VOA Hausa news 进行了抓取。

[需要更多信息]

谁是源语言的制作人?

数据集是从VOA Hausa新闻中收集的。 创建Hausa VOA NER的大部分文本来自尼日利亚,尼日尔共和国,美国和世界其他地区的新闻报道。

[需要更多信息]

标注

命名实体识别标注

标注过程

[需要更多信息]

谁是标注者?

数据由Jesujoba Alabi和David Adelani为论文进行了标注: Transfer Learning and Distant Supervision for Multilingual Transformer Models: A Study on African Languages

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策划者

注释数据集由德国萨尔布吕肯萨尔兰大学的学生开发。

授权信息

数据受到 Creative Commons Attribution 4.0 的授权。

引用信息

@inproceedings{hedderich-etal-2020-transfer,
    title = "Transfer Learning and Distant Supervision for Multilingual Transformer Models: A Study on {A}frican Languages",
    author = "Hedderich, Michael A.  and
      Adelani, David  and
      Zhu, Dawei  and
      Alabi, Jesujoba  and
      Markus, Udia  and
      Klakow, Dietrich",
    booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP)",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.emnlp-main.204",
    doi = "10.18653/v1/2020.emnlp-main.204",
    pages = "2580--2591",
}

贡献

感谢 @dadelani 添加了该数据集。