数据集:
snli
任务:
文本分类语言:
en计算机处理:
monolingual大小:
100K<n<1M语言创建人:
crowdsourced批注创建人:
crowdsourced预印本库:
arxiv:1909.02209许可:
cc-by-4.0SNLI 语料库 (版本 1.0) 是一个由人工编写的、标记为平衡分类的 570k 个英语句子对的集合,标签有 entailment(蕴含)、contradiction(矛盾)和neutral(中性),支持自然语言推理 (NLI) 任务,也被称为文本蕴涵 (RTE) 识别。
SemBERT (Zhousheng Zhang et al, 2019b) 目前被列为 SOTA,测试集准确率达到了 91.9%。参见 corpus webpage 以获取已发布结果的列表。
数据集中的语言是使用 Flickr 网站的用户和来自亚马逊 Mechanical Turk 的众包工作者所说的英语。英语的 BCP-47 代码是 en。
每个实例包含一个前提字符串、一个假设字符串和一个标签整数。请注意,每个前提可能以不同的假设和标签出现三次。详情请参阅 SNLI corpus viewer 以了解更多示例。
{'premise': 'Two women are embracing while holding to go packages.' 'hypothesis': 'The sisters are hugging goodbye while holding to go packages after just eating lunch.' 'label': 1}
下面是前提和假设的平均词汇数量:
Feature | Mean Token Count |
---|---|
Premise | 14.1 |
Hypothesis | 8.3 |
SNLI 数据集有三个拆分:train、validation 和 test。验证集和测试集的所有示例都来自验证任务中注释有无共识示例的集合。训练集中的剩余多次注释的示例都删除了无共识示例。每个唯一的前提/标题只出现在一个拆分中,尽管它们通常会出现在至少三个不同的示例中。
Dataset Split | Number of Instances in Split |
---|---|
Train | 550,152 |
Validation | 10,000 |
Test | 10,000 |
SNLI corpus (version 1.0) 被开发为用于自然语言推理 (NLI) 的基准测试集,旨在生成足够大的数据集以使用神经方法进行模型训练。
假设是通过向众包工作者展示没有相关照片的预先存在数据集的标题来引出的,但假设的词汇表仍反映了照片的内容以及标题的撰写风格 (例如,主要是现在时)。数据集的开发者报告表示数据集中有 37,026 个不区分大小写的不同词。他们允许裸名词以及完整的句子。使用在标准训练集以及 Brown 语料库上训练的 Stanford PCFG 解析器 3.5.2 (Klein 和 Manning, 2003),作者报告称,74% 的前提和 88.9% 的假设解析出的结果是以 "S" 为根的解析树。该数据集于 2014 年至 2015 年之间开发。
众包工作者在没有相关照片的情况下被展示一个标题,并被要求提供三个替代标题,分别为肯定的真实标题、可能的真实标题和绝对的错误标题。详见第 2.1 节和图 1 以获取更多详情 (Bowman et al., 2015)。
该数据集包括来自 Flickr 30k corpus 和 VisualGenome corpus 的内容。用于促使数据创建的照片标题是由 Young et al. (2014) 收集的,在此之前, Hodosh et al. (2013) 扩展了 Young et al. (2014) 开发的 Flickr 8K 数据集。Hodosh 等人从以下 Flickr 群组收集了照片:strangers!、Wild-Child (Kids in Action)、Dogs in Action (Read the Rules)、Outdoor Activities、Action Photography、Flickr-Social (two or more people in the photo)。Young 等人没有列出他们从哪些具体群组收集照片。VisualGenome 语料库中也包含来自 Flickr 的图像,最初在 MS-COCO 和 YFCC100M 中收集。
对 Flickr 30k 语料库中的前提进行了拼写纠正,使用 Linux 拼写检查器并删除了不符合语法的句子。Bowman 等人未报告任何标准化方法,尽管他们指出标点符号和大写通常被省略。
谁是源语言的制作人?160,000 个前提中的大部分来自 Flickr 30k corpus ,具体由未知数量的众包工作者创建。关联的假设由亚马逊 Mechanical Turk 的大约 2,500 名众包工作者创建。Flickr 30k 项目的前提描述的是人们和动物,他们的照片被收集并呈现给了 Flickr 30k 的众包工作者,但 SNLI 语料库没有将照片展示给假设创建者。
Flickr 30k 语料库未报告众包工作者或照片主题的统计信息,也没有众包工作者的报酬信息。SNLI 的众包工作者每个 HIT 收到的报酬在 0.1 到 0.5 美元之间,没有提供任何奖励。忽视准则的工作者会被取消资格,并且会拒绝自动批量提交的任务。SNLI 的众包工作者不收集任何人口统计信息。
另外的 4,000 个前提来自 VisualGenome corpus 的试点研究。虽然未描述试点研究本身,但对参与了 6 个月数据收集的 33,000 名 AMT 众包工作者的位置信息进行了聚合。大部分工作者来自美国 (93%),还有来自菲律宾、肯尼亚、印度、俄罗斯和加拿大的工作者。工作者的报酬是每小时 6 到 8 美元。
总共有 56,941 个句子对在验证任务中进一步进行了注释。四个注释者都对前提-假设对进行了蕴涵、矛盾或两者都不是的标注,包括原始假设作者的判断,从而获得了总共 5 个判断。详见第 2.2 节以了解更多详情 (Bowman et al., 2015)。
作者报告称,在验证集的 98% 上有 3/5 注释者一致,并且在验证集的 58.3% 上有所有注释者一致。如果有三个注释者选择了一个标签,那么该标签将成为金标签。由此可见,2% 的数据没有达成共识的标签,作者标记为 "-"。
Label | Fleiss κ |
---|---|
contradiction | 0.77 |
entailment | 0.72 |
neutral | 0.60 |
overall | 0.70 |
验证任务的注释者是亚马逊 Mechanical Turk 上约 30 个可信任的众包工作者。没有收集人口统计信息。对于 250 个随机分布的例子,注释者标签与策展人标签一致时,他们会收到每个 HIT 0.1 到 0.5 美元的报酬以及 1 美元的奖金。
数据集中不包含任何有关作者或众包工作者的个人信息,但可能包含原始 Flickr 照片中的人物描述。
该数据集开发为评估文本的表示系统,尤其是由表示学习方法产生的系统,在给定上下文中预测真实条件的任务中。 (应该注意的是,给定前提的假设的真实条件不一定与现实世界中的假设的真实条件相匹配。)在这样的任务中成功的系统可能在建模语义表示方面更加成功。
语言反映了从 Flickr 收集的照片的内容,如“数据收集” 部分所述。 Rudinger et al (2017) 通过使用逐点互信息来计算与身份类别对应的一手选择的令牌列表与语料库中其他单词之间的关联程度的指标,在性别类别之间显示了强大的刻板印象。他们还提供了众包工作者在假设中复制有害刻板印象或贬低性语言的示例。
Gururangan et al (2018) 、 Poliak et al (2018) 和 Tsuchiya (2018) 表明 SNLI 语料库具有许多注释错误。Poliak 等人使用各种分类器,在没有使用前提的情况下,准确预测了 69% 的假设标签,Gururangan 等人为 67%,Tsuchiya 为 63%。
SNLI 语料库由 Samuel R. Bowman、Gabor Angeli、Christopher Potts 和 Christopher D. Manning 开发,作为 Stanford NLP group 的一部分。
它得到了谷歌 Faculty Research Award、Bloomberg L.P. 的礼物、国防部高级研究计划局(DARPA) Air Force Research Laboratory(AFRL)合同 FA8750-13-2-0040、国家科学基金会授予号 IIS 1159679、以及海军研究办公室授予号 N00014-10-1-0109 的支持。
Stanford 语言推理语料库的许可协议为 Creative Commons Attribution-ShareAlike 4.0 International License 。
@inproceedings{snli:emnlp2015, Author = {Bowman, Samuel R. and Angeli, Gabor and Potts, Christopher, and Manning, Christopher D.}, Booktitle = {Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing (EMNLP)}, Publisher = {Association for Computational Linguistics}, Title = {A large annotated corpus for learning natural language inference}, Year = {2015} }
感谢 @mariamabarham 、 @thomwolf 、 @lewtun 、 @patrickvonplaten 和 @mcmillanmajora 为添加此数据集。