数据集:

DFKI-SLT/multitacred

英文

"MultiTACRED"数据集卡片

数据集摘要

MultiTACRED是大规模TACRED数据集的多语言版本。它涵盖了来自9个语言家族的12种不同类型的语言,并通过机器翻译原始TACRED数据集的实例并自动投影其实体标注来创建。有关原始TACRED数据收集和注释过程的详细信息,请参见 Stanford paper 。通过检查XML标记标记的正确性来语法验证翻译。具有无效标记结构(例如,缺少或无效的头部或尾部标记对)的翻译将被丢弃(平均占实例的2.3%)。

所涵盖的语言包括:阿拉伯语,中文,芬兰语,法语,德语,印地语,匈牙利语,日语,波兰语,俄语,西班牙语,土耳其语。预期用途是监督式关系分类。受众-研究人员。

请参见 our ACL paper 以获取完整详细信息。

注意:此数据集读取器支持原始TACRED JSON格式的缩减版本,具体更改如下:

  • 删除字段:stanford_pos,stanford_ner,stanford_head,stanford_deprel,docid,这是因为我们希望支持其他语言,这些字段无法使用或不需要。读取器需要一个特定于语言的配置,指定变体(原始,重访或重 tacred)和语言(作为两个字母的iso代码)。

数据集阅读器更改了以下字段的偏移量,以符合标准Python用法(参见generate_examples()函数):

  • subj_end变为subj_end + 1(使结束偏移量成为独占)
  • obj_end变为obj_end + 1(使结束偏移量成为独占)

注意2:MultiTACRED数据集提供了额外的“split”,即反向翻译的测试数据(翻译为目标语言,然后再次翻译回英语)。要访问此split,请使用dataset ['backtranslated_test']。

您可以在 https://huggingface.co/datasets/DFKI-SLT/tacred 中找到用于英语版本数据集的TACRED数据集读取器。

支持的任务和排行榜

语言

数据集中的语言包括阿拉伯语,德语,英语,西班牙语,芬兰语,法语,印地语,匈牙利语,日语,波兰语,俄语,土耳其语和中文。除英语外,所有语言均使用Deepl或Google的翻译API进行机器翻译。

数据集结构

数据实例

  • 下载的数据集文件大小:15.4KB(TACRED-Revisited),3.7 MB(Re-TACRED)
  • 生成数据集的大小:1.7 GB(所有语言,所有版本)
  • 总计使用的磁盘量:1.7 GB(所有语言,所有版本)

'train'的示例如下:

{
  "id": "61b3a5c8c9a882dcfcd2", 
  "token": ["Tom", "Thabane", "trat", "im", "Oktober", "letzten", "Jahres", "zurück", ",", "um", "die", "All", "Basotho", "Convention", "-LRB-", "ABC", "-RRB-", "zu", "gründen", ",", "die", "mit", "17", "Abgeordneten", "das", "Wort", "ergriff", ",", "woraufhin", "der", "konstitutionelle", "Monarch", "König", "Letsie", "III.", "das", "Parlament", "auflöste", "und", "Neuwahlen", "ansetzte", "."], 
  "relation": "org:founded_by", 
  "subj_start": 11, 
  "subj_end": 13, 
  "obj_start": 0, 
  "obj_end": 1, 
  "subj_type": "ORGANIZATION", 
  "obj_type": "PERSON"
}

数据字段

所有分割中的数据字段相同。

  • id:该句子的实例ID,字符串特征。
  • token:该句子的标记列表,字符串特征列表。
  • relation:该实例的关系标签,字符串分类标签。
  • subj_start:关系主语提及的开始标记的基于0的索引,整数特征。
  • subj_end:关系主语提及的结束标记的基于0的索引,独占,整数特征。
  • subj_type:主语提及的NER类型,与 Stanford NER system 中使用的类型相同,字符串特征。
  • obj_start:关系宾语提及的开始标记的基于0的索引,整数特征。
  • obj_end:关系宾语提及的结束标记的基于0的索引,独占,整数特征。
  • obj_type:宾语提及的NER类型,与 Stanford NER system 中使用的23个细粒度类型相同,字符串特征。

数据分割

为了最小化数据集偏差,TACRED在TAC KBP挑战举办年份之间进行分层。由于无法将所有实例的主语和宾语实体标记保持完好,因此这些实例被丢弃,导致分割的语言统计数据不同。

Language Train Dev Test Backtranslated Test Translation Engine
en 68,124 22,631 15,509 - -
ar 67,736 22,502 15,425 15,425 Google
de 67,253 22,343 15,282 15,079 DeepL
es 65,247 21,697 14,908 14,688 DeepL
fi 66,751 22,268 15,083 14,462 DeepL
fr 66,856 22,298 15,237 15,088 DeepL
hi 67,751 22,511 15,440 15,440 Google
hu 67,766 22,519 15,436 15,436 Google
ja 61,571 20,290 13,701 12,913 DeepL
pl 68,124 22,631 15,509 15,509 Google
ru 66,413 21,998 14,995 14,703 DeepL
tr 67,749 22,510 15,429 15,429 Google
zh 65,260 21,538 14,694 14,021 DeepL

数据集创建

策划原理

为了促进更多关于多语言关系抽取的研究,我们使用DeepL和Google Translate生成了TAC关系抽取数据集的翻译版本。

数据来源

初始数据收集和归一化

此数据集的实例是来自TAC 2010的句子,而TAC 2010句子是从每年TAC KBP挑战中使用的语料库中采样的。

语言生产者是谁?

为TAC KBP挑战收集的新闻稿和网页文本。

注释

注释过程

有关原始注释过程的详细信息,请参见斯坦福论文、TACRED Revisited论文和Re-TACRED论文,以及它们的附录。翻译版本不会改变原始标签。

翻译使用语言特定的Spacy模型(Spacy 3.1的'core_news/web_sm'模型)或Trankit(Trankit 1.1.0)进行分词,当给定语言没有Spacy模型时(匈牙利语、土耳其语、阿拉伯语、印地语)。

注释者是谁?

原始TACRED数据集由众包工人进行注释,请参见 TACRED paper

个人和敏感信息

原始TACRED数据集的作者没有说明防止收集敏感或冒犯性文本的措施。因此,我们不能排除翻译数据中存在敏感/冒犯性内容的可能风险。

使用数据的考虑事项

数据的社会影响

不适用

偏见讨论

该数据集来自网络和新闻稿文本,因此反映了这些原始文本的任何偏见,以及MT模型引入的偏见。

其他已知限制

不适用

其他信息

数据集的策划者

该数据集由 DFKI SLT team: Leonhard Hennig, Philippe Thomas, Sebastian Möller, Gabriel Kressin 的成员创建

许可信息

为了尊重基础TACRED数据集的版权,MultiTACRED通过Linguistic Data Consortium( LDC License )发布。您可以从 LDC MultiTACRED webpage 下载MultiTACRED。如果您是LDC会员,则可以免费访问;否则,需要支付25美元的访问费用。

引用信息

原始数据集:

@inproceedings{zhang2017tacred,
  author = {Zhang, Yuhao and Zhong, Victor and Chen, Danqi and Angeli, Gabor and Manning, Christopher D.},
  booktitle = {Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing (EMNLP 2017)},
  title = {Position-aware Attention and Supervised Data Improve Slot Filling},
  url = {https://nlp.stanford.edu/pubs/zhang2017tacred.pdf},
  pages = {35--45},
  year = {2017}
}

对于修改版,请引用:

@inproceedings{alt-etal-2020-tacred,
    title = "{TACRED} Revisited: A Thorough Evaluation of the {TACRED} Relation Extraction Task",
    author = "Alt, Christoph  and
      Gabryszak, Aleksandra  and
      Hennig, Leonhard",
    booktitle = "Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics",
    month = jul,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.acl-main.142",
    doi = "10.18653/v1/2020.acl-main.142",
    pages = "1558--1569",
}

对于Re-TACRED版本,请引用:

@inproceedings{DBLP:conf/aaai/StoicaPP21,
  author       = {George Stoica and
                  Emmanouil Antonios Platanios and
                  Barnab{\'{a}}s P{\'{o}}czos},
  title        = {Re-TACRED: Addressing Shortcomings of the {TACRED} Dataset},
  booktitle    = {Thirty-Fifth {AAAI} Conference on Artificial Intelligence, {AAAI}
                  2021, Thirty-Third Conference on Innovative Applications of Artificial
                  Intelligence, {IAAI} 2021, The Eleventh Symposium on Educational Advances
                  in Artificial Intelligence, {EAAI} 2021, Virtual Event, February 2-9,
                  2021},
  pages        = {13843--13850},
  publisher    = {{AAAI} Press},
  year         = {2021},
  url          = {https://ojs.aaai.org/index.php/AAAI/article/view/17631},
}

贡献

感谢 @leonhardhennig 添加此数据集。