数据集:
assin
任务:
文本分类语言:
pt计算机处理:
monolingual大小:
10K<n<100K语言创建人:
found批注创建人:
expert-generated源数据集:
original许可:
license:unknownASSIN(Avaliação de Similaridade Semântica e INferência textual)语料库是一个用于探索语义推理和释义分类器的葡萄牙语句对注释语料库。该语料库包含从谷歌新闻葡萄牙和巴西收集的用葡萄牙语(EP)和巴西葡萄牙语(BP)写的句子对。为了创建该语料库,作者首先从谷歌新闻中收集了描述同一事件的一组新闻文章(一个来自葡萄牙的谷歌新闻文章和一个来自巴西的谷歌新闻文章)。然后,他们使用潜在狄利克雷分配(LDA)模型从围绕相同主题的新闻文章组中检索出相似句子对。为此,分别对来自葡萄牙和巴西新闻提供者的未标注新闻文章进行了两个LDA模型的训练。然后,作者为检索到的句子对定义了句子相似度分数的下限和上限,考虑到高相似度分数对应几乎包含相同内容的句子(释义候选),低相似度分数对应内容非常不同的句子(无关候选)。在这一阶段获取的句子对集合中,作者对一些句子对进行了手动语法修正,并且丢弃了一些错误检索的句子对。此外,从对检索到的句子对进行的初步分析中,作者注意到先前阶段检索到的矛盾数量非常低。此外,他们还注意到,尽管释义不太频繁,但在新闻文章中频繁出现。因此,与当前大多数其他语言可用的语料库将“中性”、“蕴含”和“矛盾”作为RTE任务的标签相反,ASSIN语料库的作者决定使用“无关”、“蕴含”和“释义”作为标签。最后,人工注释句子对由人类注释员执行。至少随机选择了四名注释员来注释每个句子对,分两步进行:(i)分配一个语义相似性标签(从无关到非常相似的评分在1到5之间);(ii)提供一个蕴含标签(一个句子蕴含另一个句子,句子是释义,或无关)。如果至少三个注释员在蕴含标签上不达成一致意见,则视为有争议,因此从黄金标准注释中丢弃。完整的数据集有10,000个句子对,其中一半是巴西葡萄牙语(ptbr),一半是欧洲葡萄牙语(ptpt)。任一语言变体都有2,500个用于训练的句子对,500个用于验证,2,000个用于测试。
[需要更多信息]
支持的语言是葡萄牙语。
ASSIN数据集的示例如下所示:
{ "entailment_judgment": 0, "hypothesis": "André Gomes entra em campo quatro meses depois de uma lesão na perna esquerda o ter afastado dos relvados.", "premise": "Relembre-se que o atleta estava afastado dos relvados desde maio, altura em que contraiu uma lesão na perna esquerda.", "relatedness_score": 3.5, "sentence_pair_id": 1 }
数据分为训练集、验证集和测试集。拆分比例如下:
Train | Val | Test | |
---|---|---|---|
full | 5000 | 1000 | 4000 |
ptbr | 2500 | 500 | 2000 |
ptpt | 2500 | 500 | 2000 |
[需要更多信息]
[需要更多信息]
谁是源语言的生产者?[需要更多信息]
[需要更多信息]
谁是注释员?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
@inproceedings{fonseca2016assin, title={ASSIN: Avaliacao de similaridade semantica e inferencia textual}, author={Fonseca, E and Santos, L and Criscuolo, Marcelo and Aluisio, S}, booktitle={Computational Processing of the Portuguese Language-12th International Conference, Tomar, Portugal}, pages={13--15}, year={2016} }
感谢 @jonatasgrosman 添加了该数据集。