数据集:

DFKI-SLT/multitacred

任务:

文本分类

子任务:

multi-class-classification

语言:

大小:

100K<n<1M

语言创建人:

found

批注创建人:

crowdsourced expert-generated

源数据集:

DFKI-NLP/tacred

预印本库:

arxiv:2305.04582

其他:

relation extraction relation+extraction

许可:

other

数据集介绍文件清单

英文

"MultiTACRED"数据集卡片

数据集摘要

MultiTACRED是大规模TACRED数据集的多语言版本。它涵盖了来自9个语言家族的12种不同类型的语言，并通过机器翻译原始TACRED数据集的实例并自动投影其实体标注来创建。有关原始TACRED数据收集和注释过程的详细信息，请参见 Stanford paper 。通过检查XML标记标记的正确性来语法验证翻译。具有无效标记结构（例如，缺少或无效的头部或尾部标记对）的翻译将被丢弃（平均占实例的2.3%）。

所涵盖的语言包括：阿拉伯语，中文，芬兰语，法语，德语，印地语，匈牙利语，日语，波兰语，俄语，西班牙语，土耳其语。预期用途是监督式关系分类。受众-研究人员。

请参见 our ACL paper 以获取完整详细信息。

注意：此数据集读取器支持原始TACRED JSON格式的缩减版本，具体更改如下：

删除字段：stanford_pos，stanford_ner，stanford_head，stanford_deprel，docid，这是因为我们希望支持其他语言，这些字段无法使用或不需要。读取器需要一个特定于语言的配置，指定变体（原始，重访或重 tacred）和语言（作为两个字母的iso代码）。

数据集阅读器更改了以下字段的偏移量，以符合标准Python用法（参见generate_examples（）函数）：

subj_end变为subj_end + 1（使结束偏移量成为独占）
obj_end变为obj_end + 1（使结束偏移量成为独占）

注意2：MultiTACRED数据集提供了额外的“split”，即反向翻译的测试数据（翻译为目标语言，然后再次翻译回英语）。要访问此split，请使用dataset ['backtranslated_test']。

您可以在 https://huggingface.co/datasets/DFKI-SLT/tacred 中找到用于英语版本数据集的TACRED数据集读取器。

支持的任务和排行榜

任务：关系分类
排行榜： https://paperswithcode.com/sota/relation-extraction-on-multitacred

语言

数据集中的语言包括阿拉伯语，德语，英语，西班牙语，芬兰语，法语，印地语，匈牙利语，日语，波兰语，俄语，土耳其语和中文。除英语外，所有语言均使用Deepl或Google的翻译API进行机器翻译。

数据集结构

数据实例

下载的数据集文件大小：15.4KB（TACRED-Revisited），3.7 MB（Re-TACRED）
生成数据集的大小：1.7 GB（所有语言，所有版本）
总计使用的磁盘量：1.7 GB（所有语言，所有版本）

'train'的示例如下：

{
  "id": "61b3a5c8c9a882dcfcd2", 
  "token": ["Tom", "Thabane", "trat", "im", "Oktober", "letzten", "Jahres", "zurück", ",", "um", "die", "All", "Basotho", "Convention", "-LRB-", "ABC", "-RRB-", "zu", "gründen", ",", "die", "mit", "17", "Abgeordneten", "das", "Wort", "ergriff", ",", "woraufhin", "der", "konstitutionelle", "Monarch", "König", "Letsie", "III.", "das", "Parlament", "auflöste", "und", "Neuwahlen", "ansetzte", "."], 
  "relation": "org:founded_by", 
  "subj_start": 11, 
  "subj_end": 13, 
  "obj_start": 0, 
  "obj_end": 1, 
  "subj_type": "ORGANIZATION", 
  "obj_type": "PERSON"
}

数据字段

所有分割中的数据字段相同。

id：该句子的实例ID，字符串特征。
token：该句子的标记列表，字符串特征列表。
relation：该实例的关系标签，字符串分类标签。
subj_start：关系主语提及的开始标记的基于0的索引，整数特征。
subj_end：关系主语提及的结束标记的基于0的索引，独占，整数特征。
subj_type：主语提及的NER类型，与 Stanford NER system 中使用的类型相同，字符串特征。
obj_start：关系宾语提及的开始标记的基于0的索引，整数特征。
obj_end：关系宾语提及的结束标记的基于0的索引，独占，整数特征。
obj_type：宾语提及的NER类型，与 Stanford NER system 中使用的23个细粒度类型相同，字符串特征。

数据分割

为了最小化数据集偏差，TACRED在TAC KBP挑战举办年份之间进行分层。由于无法将所有实例的主语和宾语实体标记保持完好，因此这些实例被丢弃，导致分割的语言统计数据不同。

Language	Train	Dev	Test	Backtranslated Test	Translation Engine
en	68,124	22,631	15,509	-	-
ar	67,736	22,502	15,425	15,425	Google
de	67,253	22,343	15,282	15,079	DeepL
es	65,247	21,697	14,908	14,688	DeepL
fi	66,751	22,268	15,083	14,462	DeepL
fr	66,856	22,298	15,237	15,088	DeepL
hi	67,751	22,511	15,440	15,440	Google
hu	67,766	22,519	15,436	15,436	Google
ja	61,571	20,290	13,701	12,913	DeepL
pl	68,124	22,631	15,509	15,509	Google
ru	66,413	21,998	14,995	14,703	DeepL
tr	67,749	22,510	15,429	15,429	Google
zh	65,260	21,538	14,694	14,021	DeepL

数据集创建

策划原理

为了促进更多关于多语言关系抽取的研究，我们使用DeepL和Google Translate生成了TAC关系抽取数据集的翻译版本。

数据来源

初始数据收集和归一化

此数据集的实例是来自TAC 2010的句子，而TAC 2010句子是从每年TAC KBP挑战中使用的语料库中采样的。

语言生产者是谁？

为TAC KBP挑战收集的新闻稿和网页文本。

注释

注释过程

有关原始注释过程的详细信息，请参见斯坦福论文、TACRED Revisited论文和Re-TACRED论文，以及它们的附录。翻译版本不会改变原始标签。

翻译使用语言特定的Spacy模型（Spacy 3.1的'core_news/web_sm'模型）或Trankit（Trankit 1.1.0）进行分词，当给定语言没有Spacy模型时（匈牙利语、土耳其语、阿拉伯语、印地语）。

注释者是谁？

原始TACRED数据集由众包工人进行注释，请参见 TACRED paper 。

个人和敏感信息

原始TACRED数据集的作者没有说明防止收集敏感或冒犯性文本的措施。因此，我们不能排除翻译数据中存在敏感/冒犯性内容的可能风险。

使用数据的考虑事项

数据的社会影响

不适用

偏见讨论

该数据集来自网络和新闻稿文本，因此反映了这些原始文本的任何偏见，以及MT模型引入的偏见。

其他已知限制

不适用

其他信息

数据集的策划者

该数据集由 DFKI SLT team: Leonhard Hennig, Philippe Thomas, Sebastian Möller, Gabriel Kressin 的成员创建

许可信息

为了尊重基础TACRED数据集的版权，MultiTACRED通过Linguistic Data Consortium（ LDC License ）发布。您可以从 LDC MultiTACRED webpage 下载MultiTACRED。如果您是LDC会员，则可以免费访问；否则，需要支付25美元的访问费用。

引用信息

原始数据集：

@inproceedings{zhang2017tacred,
  author = {Zhang, Yuhao and Zhong, Victor and Chen, Danqi and Angeli, Gabor and Manning, Christopher D.},
  booktitle = {Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing (EMNLP 2017)},
  title = {Position-aware Attention and Supervised Data Improve Slot Filling},
  url = {https://nlp.stanford.edu/pubs/zhang2017tacred.pdf},
  pages = {35--45},
  year = {2017}
}

对于修改版，请引用：

@inproceedings{alt-etal-2020-tacred,
    title = "{TACRED} Revisited: A Thorough Evaluation of the {TACRED} Relation Extraction Task",
    author = "Alt, Christoph  and
      Gabryszak, Aleksandra  and
      Hennig, Leonhard",
    booktitle = "Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics",
    month = jul,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.acl-main.142",
    doi = "10.18653/v1/2020.acl-main.142",
    pages = "1558--1569",
}

对于Re-TACRED版本，请引用：

@inproceedings{DBLP:conf/aaai/StoicaPP21,
  author       = {George Stoica and
                  Emmanouil Antonios Platanios and
                  Barnab{\'{a}}s P{\'{o}}czos},
  title        = {Re-TACRED: Addressing Shortcomings of the {TACRED} Dataset},
  booktitle    = {Thirty-Fifth {AAAI} Conference on Artificial Intelligence, {AAAI}
                  2021, Thirty-Third Conference on Innovative Applications of Artificial
                  Intelligence, {IAAI} 2021, The Eleventh Symposium on Educational Advances
                  in Artificial Intelligence, {EAAI} 2021, Virtual Event, February 2-9,
                  2021},
  pages        = {13843--13850},
  publisher    = {{AAAI} Press},
  year         = {2021},
  url          = {https://ojs.aaai.org/index.php/AAAI/article/view/17631},
}

贡献

感谢 @leonhardhennig 添加此数据集。

作者:

DFKI-SLT

数据集大小:

148.54 KB