数据集:
hausa_voa_ner
任务:
标记分类语言:
ha计算机处理:
monolingual大小:
1K<n<10K语言创建人:
expert-generated批注创建人:
expert-generated源数据集:
original许可:
cc-by-4.0Hausa VOA NER是基于 VOA Hausa news 语料库的Hausa语言命名实体识别(NER)数据集。
[需要更多信息]
受支持的语言为Hausa。
数据点由以空行分隔的句子和以制表符分隔的标记和标签组成。 {'id': '0','ner_tags':['B-PER',0,0,'B-LOC',0],'tokens':['Trump','ya','ce','Rasha','ma']}
NER标签对应以下列表:
"O", "B-PER", "I-PER", "B-ORG", "I-ORG", "B-LOC", "I-LOC", "B-DATE", "I-DATE",
NER标签的格式与CoNLL共享任务相同:B表示短语的第一个项目,I表示任何非初始词。有四种类型的短语:人名(PER),组织机构(ORG),地点(LOC)和日期和时间(DATE)。对于不被视为任何命名实体的标记,使用(O)。
训练集(1,014个句子),验证集(145个句子)和测试集(291个句子)
创建该数据是为了帮助介绍自然语言处理资源给新的语言 - Hausa。
[需要更多信息]
该数据集基于新闻领域,并从 VOA Hausa news 进行了抓取。
[需要更多信息]
谁是源语言的制作人?数据集是从VOA Hausa新闻中收集的。 创建Hausa VOA NER的大部分文本来自尼日利亚,尼日尔共和国,美国和世界其他地区的新闻报道。
[需要更多信息]
命名实体识别标注
标注过程[需要更多信息]
谁是标注者?数据由Jesujoba Alabi和David Adelani为论文进行了标注: Transfer Learning and Distant Supervision for Multilingual Transformer Models: A Study on African Languages 。
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
注释数据集由德国萨尔布吕肯萨尔兰大学的学生开发。
数据受到 Creative Commons Attribution 4.0 的授权。
@inproceedings{hedderich-etal-2020-transfer, title = "Transfer Learning and Distant Supervision for Multilingual Transformer Models: A Study on {A}frican Languages", author = "Hedderich, Michael A. and Adelani, David and Zhu, Dawei and Alabi, Jesujoba and Markus, Udia and Klakow, Dietrich", booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP)", month = nov, year = "2020", address = "Online", publisher = "Association for Computational Linguistics", url = "https://www.aclweb.org/anthology/2020.emnlp-main.204", doi = "10.18653/v1/2020.emnlp-main.204", pages = "2580--2591", }
感谢 @dadelani 添加了该数据集。