数据集:
paws-x
任务:
文本分类计算机处理:
multilingual大小:
10K<n<100K源数据集:
extended|other-paws预印本库:
arxiv:1908.11828许可:
other该数据集包含23,659个人工翻译的PAWS评估对和296,406个机器翻译的训练对,涵盖了六种语言:法语、西班牙语、德语、中文、日语和韩语。所有翻译对都来自于 PAWS-Wiki 的示例。
更多详细信息,请参阅附带的论文: PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification
它主要用于英语和其他6种语言(法语、西班牙语、德语、中文、日语和韩语)的释义识别。
该数据集使用英语、法语、西班牙语、德语、中文、日语和韩语。
对于英文:
id : 1 sentence1 : In Paris , in October 1560 , he secretly met the English ambassador , Nicolas Throckmorton , asking him for a passport to return to England through Scotland . sentence2 : In October 1560 , he secretly met with the English ambassador , Nicolas Throckmorton , in Paris , and asked him for a passport to return to Scotland through England . label : 0
对于法语:
id : 1 sentence1 : À Paris, en octobre 1560, il rencontra secrètement l'ambassadeur d'Angleterre, Nicolas Throckmorton, lui demandant un passeport pour retourner en Angleterre en passant par l'Écosse. sentence2 : En octobre 1560, il rencontra secrètement l'ambassadeur d'Angleterre, Nicolas Throckmorton, à Paris, et lui demanda un passeport pour retourner en Écosse par l'Angleterre. label : 0
所有文件均为tsv格式,包含四列:
Column Name | Data |
---|---|
id | An ID that matches the ID of the source pair in PAWS-Wiki |
sentence1 | The first sentence |
sentence2 | The second sentence |
label | Label for each pair |
可以通过在PAWS-Wiki中找到对应文件中的ID来获得每个翻译的源文本。
下面是每种语言的示例数量:
Language | Train | Dev | Test |
---|---|---|---|
en | 49,401 | 2,000 | 2,000 |
fr | 49,401 | 2,000 | 2,000 |
es | 49,401 | 2,000 | 2,000 |
de | 49,401 | 2,000 | 2,000 |
zh | 49,401 | 2,000 | 2,000 |
ja | 49,401 | 2,000 | 2,000 |
ko | 49,401 | 2,000 | 2,000 |
注意:请注意PAWS-X的开发集和测试集都来自于PAWS-Wiki的开发集。因此,同一句子可能会同时出现在开发集和测试集中。然而,我们的数据拆分确保开发集和测试集之间的句子对(句子1 + 句子2)没有重叠。
大多数现有的对抗数据生成工作都集中在英语上。例如,PAWS(来自单词混淆的释义对抗)(Zhang等,2019)包含来自维基百科和Quora的具有挑战性的英语释义识别对。他们通过PAWS-X来弥补这个差距,PAWS-X是一个包含23,659个人工翻译的PAWS评估对的新数据集,涵盖了法语、西班牙语、德语、中文、日语和韩语等六种语言。他们提供了三种具有不同能力捕捉非局部上下文和句子结构的模型的基线数值,并使用了不同的多语言训练和评估方法。在P AWS英语和机器翻译数据上微调的多语言BERT(Devlin等,2019)的表现最好,非英语语言的准确率在83.1%到90.8%之间范围,并且平均准确率提高了23%。PAWS-X展示了深度多语言预训练的有效性,同时也为更好地捕捉结构和上下文信息的多语言研究留下了很大的提升空间。
PAWS(来自单词混淆的释义对抗)
初始数据收集和规范化该数据集包含23,659个人工翻译的PAWS评估对和296,406个机器翻译的训练对,涵盖了法语、西班牙语、德语、中文、日语和韩语等六种语言。
如果适用,请描述注释过程和使用的任何工具,或明确说明。描述所注释的数据量,如果不是全部注释。描述或引用提供给注释人员的注释指南。如果有的话,请提供注释者间的一致性统计数据。描述任何注释验证过程。
注释者是谁?论文中提到了翻译团队,特别是Mengmeng Niu,他们对注释工作有所帮助。
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
列出参与收集数据集的人员及其所属机构。如果已知资金信息,请在此处提供。
可以自由使用该数据集,但希望在使用时对Google LLC(“Google”)作为数据源进行确认。数据集按“原样”提供,不提供任何明示或暗示的担保。Google对因使用数据集而产生的任何直接或间接损害不承担任何责任。
@InProceedings{pawsx2019emnlp, title = {{PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification}}, author = {Yang, Yinfei and Zhang, Yuan and Tar, Chris and Baldridge, Jason}, booktitle = {Proc. of EMNLP}, year = {2019} }
感谢 @bhavitvyamalik , @gowtham1997 添加此数据集。