数据集:
paws
任务:
文本分类语言:
en计算机处理:
monolingual语言创建人:
machine-generated源数据集:
original预印本库:
arxiv:1904.01130许可:
otherPAWS: 单词乱序的释义对手数据集
该数据集包含108,463对人工标注和656k对有噪声标注的句子对,重点在于模拟结构、上下文和词序信息对释义识别问题的重要性。该数据集有两个子集,一个基于维基百科,另一个基于Quora问题对 (QQP) 数据集。
更多详细信息请参见附带的论文:PAWS: 单词乱序的释义对手 ( https://arxiv.org/abs/1904.01130 )
由于QQP的许可问题,无法提供PAWS-QQP数据集。可以通过下载原始数据并运行我们的脚本来重建该数据集,并附加标签。
【需要更多信息】
数据集中的文本为英文。
以下是数据集中的两个示例:
Sentence 1 | Sentence 2 | Label | |
---|---|---|---|
(1) | Although interchangeable, the body pieces on the 2 cars are not similar. | Although similar, the body parts are not interchangeable on the 2 cars. | 0 |
(2) | Katz was born in Sweden in 1947 and moved to New York City at the age of 1. | Katz was born in 1947 in Sweden and moved to New York at the age of one. | 1 |
第一对具有不同的语义含义,而第二对是释义。使用现有数据集训练的最先进模型在PAWS上表现不佳(