数据集:
DFKI-SLT/mobie
语言:
de计算机处理:
monolingual大小:
10K<n<100K语言创建人:
found批注创建人:
expert-generated源数据集:
original许可:
cc-by-4.0此脚本用于从 https://github.com/dfki-nlp/mobie 加载 MobIE 数据集。
MobIE 是一个德语数据集,人工注释了20个粗粒度和细粒度实体类型以及与地理位置相关的实体的链接信息。数据集包含3,232个社交媒体文本和交通报告,共有91K个标记,并包含20.5K个已注释的实体,其中13.1K个链接到了知识库。数据集的子集使用七个与移动相关的 n-ary 关系类型进行了人工注释,而剩余的文档则使用使用Snorkel框架实现的弱监督标注方法进行了注释。该数据集结合了NER、EL和RE的注释,因此可以用于这些基础信息抽取任务的联合和多任务学习。
此版本的数据集加载器仅提供NER标签。NER标签使用BIO标记方案。
更多详细信息请参见 https://github.com/dfki-nlp/mobie 和 https://aclanthology.org/2021.konvens-1.22/ 。
德语
'train' 的示例如下所示。
{ 'id': 'http://www.ndr.de/nachrichten/verkehr/index.html#2@2016-05-04T21:02:14.000+02:00', 'tokens': ['Vorsicht', 'bitte', 'auf', 'der', 'A28', 'Leer', 'Richtung', 'Oldenburg', 'zwischen', 'Zwischenahner', 'Meer', 'und', 'Neuenkruge', 'liegen', 'Gegenstände', '!'], 'ner_tags': [0, 0, 0, 0, 19, 13, 0, 13, 0, 11, 12, 0, 11, 0, 0, 0] }
数据字段在所有拆分中都相同。
Train | Dev | Test | |
---|---|---|---|
MobIE | 4785 | 1082 | 1210 |
@inproceedings{hennig-etal-2021-mobie, title = "{M}ob{IE}: A {G}erman Dataset for Named Entity Recognition, Entity Linking and Relation Extraction in the Mobility Domain", author = "Hennig, Leonhard and Truong, Phuc Tran and Gabryszak, Aleksandra", booktitle = "Proceedings of the 17th Conference on Natural Language Processing (KONVENS 2021)", month = "6--9 " # sep, year = "2021", address = {D{\"u}sseldorf, Germany}, publisher = "KONVENS 2021 Organizers", url = "https://aclanthology.org/2021.konvens-1.22", pages = "223--227", }