数据集:
swag
任务:
文本分类语言:
en计算机处理:
monolingual大小:
100K<n<1M语言创建人:
found源数据集:
original预印本库:
arxiv:1808.05326许可:
license:unknown当给出一个类似"她打开了汽车的引擎盖"的片段描述时,人们可以推理出情境并预测接下来可能发生的事情(例如"然后,她检查了发动机")。情境对抗生成数据集(SWAG)是用于基于物理场景的常识推理的大规模数据集,统一了自然语言推理和基于物理场景的推理。
该数据集包含了11.3万个关于基于场景的多项选择问题(训练集7.3万个,验证集2万个,测试集2万个)。每个问题是来自LSMDC或ActivityNet Captions的视频标题,提供四个关于场景中可能发生的下一个事件的答案选项。正确答案是视频中下一个事件的(真实的)视频标题;三个错误答案是经过对抗生成并由人工验证的,可以欺骗机器但不会欺骗人类。SWAG旨在成为评估基于物理场景常识NL I和学习表示的基准。
该数据集引入了基于物理场景的常识推理任务,统一了自然语言推理和常识推理。
数据集中的文本为英语。相关的BCP-47代码为en。
建议使用常规配置进行建模。一个例子如下:
{ "video-id": "anetv_dm5WXFiQZUQ", "fold-ind": "18419", "startphrase", "He rides the motorcycle down the hall and into the elevator. He", "sent1": "He rides the motorcycle down the hall and into the elevator." "sent2": "He", "gold-source": "gold", "ending0": "looks at a mirror in the mirror as he watches someone walk through a door.", "ending1": "stops, listening to a cup of coffee with the seated woman, who's standing.", "ending2": "exits the building and rides the motorcycle into a casino where he performs several tricks as people watch.", "ending3": "pulls the bag out of his pocket and hands it to someone's grandma.", "label": 2, }
注意测试数据留给了排行榜上的盲目提交。
全部的训练集和验证集提供了有关采集过程的更多信息。
关于字段的更多信息可以在 on the original repo 中找到。
数据集包含11.3万个关于基于场景的多项选择问题:训练集7.3万个,验证集2万个,测试集2万个(盲目提交)。
作者在寻求数据集的多样性的同时,尽量减少注释产生的人为因素,如长度和词汇偏好偏差等条件性样式。为了避免引入容易被"操纵"的模式,他们引入了对抗过滤(AF)这一普遍适用的处理方法,通过迭代改进一组分配来增加所选择模型下的熵。然后,数据集由付费众包人员进行人工验证。
本节描述了源数据(例如新闻文本和头条新闻、社交媒体帖子、翻译后的句子等)
初始数据收集和归一化该数据集源自于 ActivityNet Captions 和 Large Scale Movie Description Challenge 的连续视频标题对。这两个数据集在性质上略有不同,使我们能够获得更广泛的覆盖范围:ActivityNet包含2万个YouTube剪辑,其中包含203种活动类型之一(例如做体操或弹吉他);LSMDC由12.8万个电影标题组成(音频描述和剧本)。
谁是源语言的生产者?[需要更多信息]
注释首先是由机器生成的,然后经过对抗过滤。最后,剩下的样本由付费众包人员进行了人工验证。
谁是标注者?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
未知
@inproceedings{zellers2018swagaf, title={SWAG: A Large-Scale Adversarial Dataset for Grounded Commonsense Inference}, author={Zellers, Rowan and Bisk, Yonatan and Schwartz, Roy and Choi, Yejin}, booktitle = "Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing (EMNLP)", year={2018} }
感谢 @VictorSanh 添加了该数据集。