数据集:
DFKI-SLT/multitacred
MultiTACRED是大规模TACRED数据集的多语言版本。它涵盖了来自9个语言家族的12种不同类型的语言,并通过机器翻译原始TACRED数据集的实例并自动投影其实体标注来创建。有关原始TACRED数据收集和注释过程的详细信息,请参见 Stanford paper 。通过检查XML标记标记的正确性来语法验证翻译。具有无效标记结构(例如,缺少或无效的头部或尾部标记对)的翻译将被丢弃(平均占实例的2.3%)。
所涵盖的语言包括:阿拉伯语,中文,芬兰语,法语,德语,印地语,匈牙利语,日语,波兰语,俄语,西班牙语,土耳其语。预期用途是监督式关系分类。受众-研究人员。
请参见 our ACL paper 以获取完整详细信息。
注意:此数据集读取器支持原始TACRED JSON格式的缩减版本,具体更改如下:
数据集阅读器更改了以下字段的偏移量,以符合标准Python用法(参见generate_examples()函数):
注意2:MultiTACRED数据集提供了额外的“split”,即反向翻译的测试数据(翻译为目标语言,然后再次翻译回英语)。要访问此split,请使用dataset ['backtranslated_test']。
您可以在 https://huggingface.co/datasets/DFKI-SLT/tacred 中找到用于英语版本数据集的TACRED数据集读取器。
数据集中的语言包括阿拉伯语,德语,英语,西班牙语,芬兰语,法语,印地语,匈牙利语,日语,波兰语,俄语,土耳其语和中文。除英语外,所有语言均使用Deepl或Google的翻译API进行机器翻译。
'train'的示例如下:
{ "id": "61b3a5c8c9a882dcfcd2", "token": ["Tom", "Thabane", "trat", "im", "Oktober", "letzten", "Jahres", "zurück", ",", "um", "die", "All", "Basotho", "Convention", "-LRB-", "ABC", "-RRB-", "zu", "gründen", ",", "die", "mit", "17", "Abgeordneten", "das", "Wort", "ergriff", ",", "woraufhin", "der", "konstitutionelle", "Monarch", "König", "Letsie", "III.", "das", "Parlament", "auflöste", "und", "Neuwahlen", "ansetzte", "."], "relation": "org:founded_by", "subj_start": 11, "subj_end": 13, "obj_start": 0, "obj_end": 1, "subj_type": "ORGANIZATION", "obj_type": "PERSON" }
所有分割中的数据字段相同。
为了最小化数据集偏差,TACRED在TAC KBP挑战举办年份之间进行分层。由于无法将所有实例的主语和宾语实体标记保持完好,因此这些实例被丢弃,导致分割的语言统计数据不同。
Language | Train | Dev | Test | Backtranslated Test | Translation Engine |
---|---|---|---|---|---|
en | 68,124 | 22,631 | 15,509 | - | - |
ar | 67,736 | 22,502 | 15,425 | 15,425 | |
de | 67,253 | 22,343 | 15,282 | 15,079 | DeepL |
es | 65,247 | 21,697 | 14,908 | 14,688 | DeepL |
fi | 66,751 | 22,268 | 15,083 | 14,462 | DeepL |
fr | 66,856 | 22,298 | 15,237 | 15,088 | DeepL |
hi | 67,751 | 22,511 | 15,440 | 15,440 | |
hu | 67,766 | 22,519 | 15,436 | 15,436 | |
ja | 61,571 | 20,290 | 13,701 | 12,913 | DeepL |
pl | 68,124 | 22,631 | 15,509 | 15,509 | |
ru | 66,413 | 21,998 | 14,995 | 14,703 | DeepL |
tr | 67,749 | 22,510 | 15,429 | 15,429 | |
zh | 65,260 | 21,538 | 14,694 | 14,021 | DeepL |
为了促进更多关于多语言关系抽取的研究,我们使用DeepL和Google Translate生成了TAC关系抽取数据集的翻译版本。
此数据集的实例是来自TAC 2010的句子,而TAC 2010句子是从每年TAC KBP挑战中使用的语料库中采样的。
语言生产者是谁?为TAC KBP挑战收集的新闻稿和网页文本。
有关原始注释过程的详细信息,请参见斯坦福论文、TACRED Revisited论文和Re-TACRED论文,以及它们的附录。翻译版本不会改变原始标签。
翻译使用语言特定的Spacy模型(Spacy 3.1的'core_news/web_sm'模型)或Trankit(Trankit 1.1.0)进行分词,当给定语言没有Spacy模型时(匈牙利语、土耳其语、阿拉伯语、印地语)。
注释者是谁?原始TACRED数据集由众包工人进行注释,请参见 TACRED paper 。
原始TACRED数据集的作者没有说明防止收集敏感或冒犯性文本的措施。因此,我们不能排除翻译数据中存在敏感/冒犯性内容的可能风险。
不适用
该数据集来自网络和新闻稿文本,因此反映了这些原始文本的任何偏见,以及MT模型引入的偏见。
不适用
该数据集由 DFKI SLT team: Leonhard Hennig, Philippe Thomas, Sebastian Möller, Gabriel Kressin 的成员创建
为了尊重基础TACRED数据集的版权,MultiTACRED通过Linguistic Data Consortium( LDC License )发布。您可以从 LDC MultiTACRED webpage 下载MultiTACRED。如果您是LDC会员,则可以免费访问;否则,需要支付25美元的访问费用。
原始数据集:
@inproceedings{zhang2017tacred, author = {Zhang, Yuhao and Zhong, Victor and Chen, Danqi and Angeli, Gabor and Manning, Christopher D.}, booktitle = {Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing (EMNLP 2017)}, title = {Position-aware Attention and Supervised Data Improve Slot Filling}, url = {https://nlp.stanford.edu/pubs/zhang2017tacred.pdf}, pages = {35--45}, year = {2017} }
对于修改版,请引用:
@inproceedings{alt-etal-2020-tacred, title = "{TACRED} Revisited: A Thorough Evaluation of the {TACRED} Relation Extraction Task", author = "Alt, Christoph and Gabryszak, Aleksandra and Hennig, Leonhard", booktitle = "Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics", month = jul, year = "2020", address = "Online", publisher = "Association for Computational Linguistics", url = "https://www.aclweb.org/anthology/2020.acl-main.142", doi = "10.18653/v1/2020.acl-main.142", pages = "1558--1569", }
对于Re-TACRED版本,请引用:
@inproceedings{DBLP:conf/aaai/StoicaPP21, author = {George Stoica and Emmanouil Antonios Platanios and Barnab{\'{a}}s P{\'{o}}czos}, title = {Re-TACRED: Addressing Shortcomings of the {TACRED} Dataset}, booktitle = {Thirty-Fifth {AAAI} Conference on Artificial Intelligence, {AAAI} 2021, Thirty-Third Conference on Innovative Applications of Artificial Intelligence, {IAAI} 2021, The Eleventh Symposium on Educational Advances in Artificial Intelligence, {EAAI} 2021, Virtual Event, February 2-9, 2021}, pages = {13843--13850}, publisher = {{AAAI} Press}, year = {2021}, url = {https://ojs.aaai.org/index.php/AAAI/article/view/17631}, }
感谢 @leonhardhennig 添加此数据集。