数据集:

assin2

任务:

文本分类

子任务:

text-scoring natural-language-inference semantic-similarity-scoring

语言:

计算机处理:

monolingual

大小:

1K<n<10K

语言创建人:

found

批注创建人:

expert-generated

源数据集:

original

许可:

license:unknown

数据集介绍文件清单

英文

ASSIN 2数据集数据卡片

数据集摘要

ASSIN 2语料库由相对简单的句子组成。遵循SemEval 2014任务1的流程。训练集和验证集分别由6,500个和500个巴西葡萄牙语的句子对组成，标注了蕴涵关系和语义相似度。语义相似度值范围为1到5，文本蕴涵类别为蕴涵或无。测试数据由大约3,000个带有相同注释的句子对组成。所有数据均由人工注释。

支持的任务和排行榜

[需要更多信息]

语言

支持的语言是葡萄牙语。

数据集结构

数据实例

ASSIN 2数据集的一个示例如下：

{
  "entailment_judgment": 1,
  "hypothesis": "Uma criança está segurando uma pistola de água",
  "premise": "Uma criança risonha está segurando uma pistola de água e sendo espirrada com água",
  "relatedness_score": 4.5,
  "sentence_pair_id": 1
}

数据字段

sentence_pair_id: 一个int64特征。
premise: 一个字符串特征。
hypothesis: 一个字符串特征。
relatedness_score: 一个float32特征。
entailment_judgment: 一个分类标签，可能的取值包括NONE、ENTAILMENT。

数据拆分

数据分为训练集、验证集和测试集。拆分大小如下：

Train	Val	Test
6500	500	2448

数据集创建

策划理由

[需要更多信息]

源数据

采集和规范化的初始数据

[需要更多信息]

源语言制作者是谁？

[需要更多信息]

注释

注释过程

[需要更多信息]

注释者是谁？

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集策划者

[需要更多信息]

许可信息

[需要更多信息]

引用信息

@inproceedings{real2020assin,
  title={The assin 2 shared task: a quick overview},
  author={Real, Livy and Fonseca, Erick and Oliveira, Hugo Goncalo},
  booktitle={International Conference on Computational Processing of the Portuguese Language},
  pages={406--412},
  year={2020},
  organization={Springer}
}

贡献

感谢 @jonatasgrosman 添加了这个数据集。

作者:

佚名

数据集大小:

12.7 KB