数据集:
refresd
REFreSD数据集包含1,039个英语-法语句对,这些句对被注释为句级差异判断和标记级合理性。收集REFreSD的项目旨在推进我们对跨语言文本含义比较与对比的计算表示和方法的基本理解。
语义相似性分类和语义相似性得分:这个数据集可以用来评估计算方法在检测语言之间的含义不匹配方面的能力。通过将模型预测与REFreSD中的人工判断进行比较,以准确性来衡量模型性能。有关基于BERT模型的Divergent mBERT在此数据集上的结果详情,请参阅 paper 。
文本以英语和法语呈现,如维基百科上所示。相关的BCP-47代码为en和fr。
每个数据点的样子如下:
{ 'sentence_pair': {'en': 'The invention of farming some 10,000 years ago led to the development of agrarian societies , whether nomadic or peasant , the latter in particular almost always dominated by a strong sense of traditionalism .', 'fr': "En quelques décennies , l' activité économique de la vallée est passée d' une mono-activité agricole essentiellement vivrière , à une quasi mono-activité touristique , si l' on excepte un artisanat du bâtiment traditionnel important , en partie saisonnier ."} 'label': 0, 'all_labels': 0, 'rationale_en': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1], 'rationale_fr': [2, 3, 3, 3, 3, 3, 3, 3, 3, 3, 1, 1, 1, 1, 2, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3], }
该数据集包含1039个句对,分为一个“train”集。其中,64%被注释为divergent,并且40%包含细粒度意义差异。
Label | Number of Instances |
---|---|
Unrelated | 252 |
Some meaning difference | 418 |
No meaning different | 369 |
策划者选择了WikiMatrix语料库的英法部分,因为(1)它很可能包含各种各样的差异类型,因为它由不同主题的挖掘平行句子组成,这些句子不一定是由(人类)翻译生成的,以及(2)维基百科和WikiMatrix是训练语义表示和在自然语言处理中执行跨语言转移的广泛使用的资源。
该语料库的源数据是维基百科文章的英语和法语部分。策划者通过过滤掉以下句对来排除噪声样本:a) 过于短或过于长的句对,b) 主要由数字组成的句对,c) 具有小的令牌级编辑差异的句对。
源语言的制作人是谁?维基百科文章的一些内容是从另一种语言的现有文章进行了(人类)翻译,而其他内容是独立使用每种语言编写或编辑的。因此,无法得知原始文本是如何创建的。
标注过程在2020年4月的三个星期内进行了收集。标注者会看到一句英语句子和一句法语句子。首先,他们会突出显示跨度并将其标记为“added”、“changed”或“other”,其中添加的跨度包含其他句子中不包含的信息,更改的跨度包含其他句子中的一些信息,但意义不同,而其他的跨度则有一些不同的意义,不在前两种情况下,例如成语。然后,他们会评估两个句子之间的关系,是“无关的”、“有些意义上的差异”还是“没有意义差异”。有关任务和注释界面的更多信息,请参阅 annotation guidelines ,有关注释者补偿的信息,请参阅 DataSheet 。
以下表格包含数据集的互评一致性指标:
Granularity | Method | IAA |
---|---|---|
Sentence | Krippendorf's α | 0.60 |
Span | macro F1 | 45.56 ± 7.60 |
Token | macro F1 | 33.94 ± 8.24 |
该数据集包括来自马里兰大学College Park分校(UMD)教育机构的6名参与者的注释。参与者年龄在20至25岁之间,其中一名男性和五名女性。对于每个参与者,策划者确保他们精通感兴趣的两种语言:其中3人自报为英语母语者,1人自报为法语母语者,2人自报为英法双语者。
该数据集包含有关人们在维基百科文章中的讨论。它不包含机密信息,也不包含有关源语言制作者或注释者的识别信息。
在支持的任务中取得成功的模型需要在句子级别上具有复杂的语义表示能力,超越了单独标记的个别令牌的组合表示。这样的模型可以用于为机器翻译、跨语言转移学习或语义建模等任务筛选平行语料库。
然而,数据集中的陈述并不一定代表现实世界,如果一个语言主要是翻译成另一种语言,而不是两种语言之间翻译的平等分配,可能会过分强调一个世界观。
众所周知,英文维基百科中的男性编辑者要比其他任何性别多得多,并且他们居住在北美或欧洲。这导致了该语料库中关于主题和用于讨论这些主题的语言的男性观点的代表过多。法语维基百科的情况尚不清楚。尚未对REFreSD数据集进行研究,以确定其是否包含在较大的维基百科数据集中看到的性别和其他偏见。
不知道数据集中有多少句子是独立写作的,有多少句子是通过人或机器从其他语言到本数据集中感兴趣的语言进行翻译的。
数据集策划者是 Eleftheria Briakou 和 Marine Carpuat,他们都隶属于马里兰大学College Park计算机科学系。
该项目使用 MIT License 许可。
@inproceedings{briakou-carpuat-2020-detecting, title = "Detecting Fine-Grained Cross-Lingual Semantic Divergences without Supervision by Learning to Rank", author = "Briakou, Eleftheria and Carpuat, Marine", booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP)", month = nov, year = "2020", address = "Online", publisher = "Association for Computational Linguistics", url = "https://www.aclweb.org/anthology/2020.emnlp-main.121", pages = "1563--1580", }
感谢 @mpariente 和 @mcmillanmajora 提供此数据集。