数据集:

DFKI-SLT/mobie

语言:

de

计算机处理:

monolingual

大小:

10K<n<100K

语言创建人:

found

批注创建人:

expert-generated

源数据集:

original

许可:

cc-by-4.0
英文

"MobIE" 数据集卡片

数据集概要

此脚本用于从 https://github.com/dfki-nlp/mobie 加载 MobIE 数据集。

MobIE 是一个德语数据集,人工注释了20个粗粒度和细粒度实体类型以及与地理位置相关的实体的链接信息。数据集包含3,232个社交媒体文本和交通报告,共有91K个标记,并包含20.5K个已注释的实体,其中13.1K个链接到了知识库。数据集的子集使用七个与移动相关的 n-ary 关系类型进行了人工注释,而剩余的文档则使用使用Snorkel框架实现的弱监督标注方法进行了注释。该数据集结合了NER、EL和RE的注释,因此可以用于这些基础信息抽取任务的联合和多任务学习。

此版本的数据集加载器仅提供NER标签。NER标签使用BIO标记方案。

更多详细信息请参见 https://github.com/dfki-nlp/mobie https://aclanthology.org/2021.konvens-1.22/

支持的任务和排行榜

  • 任务:命名实体识别
  • 排行榜:

语言

德语

数据集结构

数据实例

  • 下载的数据集文件大小:7.8 MB
  • 生成的数据集大小:1.9 MB
  • 总使用磁盘量:9.7 MB

'train' 的示例如下所示。

{ 
  'id': 'http://www.ndr.de/nachrichten/verkehr/index.html#2@2016-05-04T21:02:14.000+02:00',
  'tokens': ['Vorsicht', 'bitte', 'auf', 'der', 'A28', 'Leer', 'Richtung', 'Oldenburg', 'zwischen', 'Zwischenahner', 'Meer', 'und', 'Neuenkruge', 'liegen', 'Gegenstände', '!'], 
  'ner_tags': [0, 0, 0, 0, 19, 13, 0, 13, 0, 11, 12, 0, 11, 0, 0, 0]
}

数据字段

数据字段在所有拆分中都相同。

  • id:字符串特征。
  • tokens:字符串特征的列表。
  • ner_tags:分类标签的列表,可能的值包括 O (0)、B-date (1)、I-date (2)、B-disaster-type (3)、I-disaster-type (4),...

数据拆分

Train Dev Test
MobIE 4785 1082 1210

数据集创建

策划理由

More Information Needed

源数据

初始数据收集和规范化

More Information Needed

谁是源语言的生产者?

More Information Needed

注释

注释过程

More Information Needed

谁是注释者?

More Information Needed

个人和敏感信息

More Information Needed

使用数据的注意事项

数据的社会影响

More Information Needed

偏见讨论

More Information Needed

其他已知限制

More Information Needed

附加信息

数据集维护者

More Information Needed

许可信息

CC BY-SA 4.0 license

引用信息

@inproceedings{hennig-etal-2021-mobie,
    title = "{M}ob{IE}: A {G}erman Dataset for Named Entity Recognition, Entity Linking and Relation Extraction in the Mobility Domain",
    author = "Hennig, Leonhard  and
      Truong, Phuc Tran  and
      Gabryszak, Aleksandra",
    booktitle = "Proceedings of the 17th Conference on Natural Language Processing (KONVENS 2021)",
    month = "6--9 " # sep,
    year = "2021",
    address = {D{\"u}sseldorf, Germany},
    publisher = "KONVENS 2021 Organizers",
    url = "https://aclanthology.org/2021.konvens-1.22",
    pages = "223--227",
}

贡献