数据集:
assin2
任务:
文本分类语言:
pt计算机处理:
monolingual大小:
1K<n<10K语言创建人:
found批注创建人:
expert-generated源数据集:
original许可:
license:unknownASSIN 2语料库由相对简单的句子组成。遵循SemEval 2014任务1的流程。训练集和验证集分别由6,500个和500个巴西葡萄牙语的句子对组成,标注了蕴涵关系和语义相似度。语义相似度值范围为1到5,文本蕴涵类别为蕴涵或无。测试数据由大约3,000个带有相同注释的句子对组成。所有数据均由人工注释。
[需要更多信息]
支持的语言是葡萄牙语。
ASSIN 2数据集的一个示例如下:
{ "entailment_judgment": 1, "hypothesis": "Uma criança está segurando uma pistola de água", "premise": "Uma criança risonha está segurando uma pistola de água e sendo espirrada com água", "relatedness_score": 4.5, "sentence_pair_id": 1 }
数据分为训练集、验证集和测试集。拆分大小如下:
Train | Val | Test |
---|---|---|
6500 | 500 | 2448 |
[需要更多信息]
[需要更多信息]
源语言制作者是谁?[需要更多信息]
[需要更多信息]
注释者是谁?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
@inproceedings{real2020assin, title={The assin 2 shared task: a quick overview}, author={Real, Livy and Fonseca, Erick and Oliveira, Hugo Goncalo}, booktitle={International Conference on Computational Processing of the Portuguese Language}, pages={406--412}, year={2020}, organization={Springer} }
感谢 @jonatasgrosman 添加了这个数据集。