数据集:

swag

语言:

en

计算机处理:

monolingual

大小:

100K<n<1M

语言创建人:

found

源数据集:

original

预印本库:

arxiv:1808.05326
英文

情境对抗生成数据集卡片

数据集概述

当给出一个类似"她打开了汽车的引擎盖"的片段描述时,人们可以推理出情境并预测接下来可能发生的事情(例如"然后,她检查了发动机")。情境对抗生成数据集(SWAG)是用于基于物理场景的常识推理的大规模数据集,统一了自然语言推理和基于物理场景的推理。

该数据集包含了11.3万个关于基于场景的多项选择问题(训练集7.3万个,验证集2万个,测试集2万个)。每个问题是来自LSMDC或ActivityNet Captions的视频标题,提供四个关于场景中可能发生的下一个事件的答案选项。正确答案是视频中下一个事件的(真实的)视频标题;三个错误答案是经过对抗生成并由人工验证的,可以欺骗机器但不会欺骗人类。SWAG旨在成为评估基于物理场景常识NL I和学习表示的基准。

支持的任务和排行榜

该数据集引入了基于物理场景的常识推理任务,统一了自然语言推理和常识推理。

语言

数据集中的文本为英语。相关的BCP-47代码为en。

数据集结构

数据实例

建议使用常规配置进行建模。一个例子如下:

{
  "video-id": "anetv_dm5WXFiQZUQ",
  "fold-ind": "18419",
  "startphrase", "He rides the motorcycle down the hall and into the elevator. He",
  "sent1": "He rides the motorcycle down the hall and into the elevator."
  "sent2": "He",
  "gold-source": "gold",
  "ending0": "looks at a mirror in the mirror as he watches someone walk through a door.",
  "ending1": "stops, listening to a cup of coffee with the seated woman, who's standing.",
  "ending2": "exits the building and rides the motorcycle into a casino where he performs several tricks as people watch.",
  "ending3": "pulls the bag out of his pocket and hands it to someone's grandma.",
  "label": 2,
}

注意测试数据留给了排行榜上的盲目提交。

全部的训练集和验证集提供了有关采集过程的更多信息。

数据字段

  • video-id:标识符
  • fold-ind:标识符
  • startphrase:要填充的上下文
  • sent1:第一个句子
  • sent2:第二个句子的开头(待填充)
  • gold-source:生成或来自找到的补全
  • ending0:第一个选择
  • ending1:第二个选择
  • ending2:第三个选择
  • ending3:第四个选择
  • label:正确的选择

关于字段的更多信息可以在 on the original repo 中找到。

数据拆分

数据集包含11.3万个关于基于场景的多项选择问题:训练集7.3万个,验证集2万个,测试集2万个(盲目提交)。

数据集创建

策划理由

作者在寻求数据集的多样性的同时,尽量减少注释产生的人为因素,如长度和词汇偏好偏差等条件性样式。为了避免引入容易被"操纵"的模式,他们引入了对抗过滤(AF)这一普遍适用的处理方法,通过迭代改进一组分配来增加所选择模型下的熵。然后,数据集由付费众包人员进行人工验证。

源数据

本节描述了源数据(例如新闻文本和头条新闻、社交媒体帖子、翻译后的句子等)

初始数据收集和归一化

该数据集源自于 ActivityNet Captions Large Scale Movie Description Challenge 的连续视频标题对。这两个数据集在性质上略有不同,使我们能够获得更广泛的覆盖范围:ActivityNet包含2万个YouTube剪辑,其中包含203种活动类型之一(例如做体操或弹吉他);LSMDC由12.8万个电影标题组成(音频描述和剧本)。

谁是源语言的生产者?

[需要更多信息]

注释

注释过程

注释首先是由机器生成的,然后经过对抗过滤。最后,剩下的样本由付费众包人员进行了人工验证。

谁是标注者?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用该数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策划人员

[需要更多信息]

许可信息

未知

引用信息

@inproceedings{zellers2018swagaf,
    title={SWAG: A Large-Scale Adversarial Dataset for Grounded Commonsense Inference},
    author={Zellers, Rowan and Bisk, Yonatan and Schwartz, Roy and Choi, Yejin},
    booktitle = "Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing (EMNLP)",
    year={2018}
}

贡献者

感谢 @VictorSanh 添加了该数据集。