数据集:

GEM/common_gen

语言:

en

计算机处理:

unknown

语言创建人:

unknown

批注创建人:

none

源数据集:

original

其他:

reasoning

许可:

mit
英文

GEM/common_gen 数据集卡片

主数据卡片链接

您可以在 GEM Website 上找到主数据卡片。

数据集概述

CommonGen 是一个英文文本生成任务,旨在明确测试机器的常识生成推理能力。给定一组常见概念,任务是使用这些概念生成一个描述日常场景的连贯句子。CommonGen的挑战在于它本质上需要 1) 利用背景常识知识进行关系推理,2) 组合概括能力以处理未见过的概念组合。该数据集通过 AMT 众包和现有字幕语料库的组合构建,总共包含 30k 个概念集和 50k 个句子。请注意,CommonGen 测试集是私有的,需要提交到外部排行榜才能获取访问权限。

您可以通过以下方式加载数据集:

import datasets
data = datasets.load_dataset('GEM/common_gen')

数据加载器可以在 here 找到。

网站: link

论文: Link

作者:Bill Yuchen Lin (USC)、Wangchunshu Zhou (USC)、Ming Shen (USC)、Pei Zhou (USC)、Chandra Bhagavatula (AllenAI)、Yejin Choi (AllenAI+UW)、Xiang Ren (USC)

数据集概述

获取数据及其文档

网页: link

下载: Link

论文: Link

BibTex:

@inproceedings{lin-etal-2020-commongen,
    title = "{C}ommon{G}en: A Constrained Text Generation Challenge for Generative Commonsense Reasoning",
    author = "Lin, Bill Yuchen  and
      Zhou, Wangchunshu  and
      Shen, Ming  and
      Zhou, Pei  and
      Bhagavatula, Chandra  and
      Choi, Yejin  and
      Ren, Xiang",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.findings-emnlp.165",
    pages = "1823--1840",
}

联系人姓名:

Bill Yuchen Lin

联系人邮箱:

yuchen.lin@usc.edu

是否有排行榜?:

排行榜链接:

Link

排行榜详情:

模型输出通过众包参考句子进行评估,并根据 SPICE 分数排名。排行榜还报告 BLEU-4 和 CIDEr 分数。

语言和使用方式

多语言?:

覆盖方言:

没有提供区域限制的信息,因此我们假设涵盖了 Mechanical Turk 评定者所使用的方言。

覆盖的语言:

英语

语言归属:

概念来自多个英语图像字幕数据集,并通过 Amazon Mechanical Turk 收集数据。未提供关于区域限制的信息。

许可证:

mit: MIT 许可证

使用目的:

CommonGen 是一个受限制的文本生成任务,与一个基准数据集相关联,旨在明确测试机器的生成型常识推理能力。

认证

机构类型:

学术型 , 独立型

机构组织:

该数据集由南加州大学和 Allen 人工智能研究所的研究者联合团队整理。

数据集创建者:

Bill Yuchen Lin (USC)、Wangchunshu Zhou (USC)、Ming Shen (USC)、Pei Zhou (USC)、Chandra Bhagavatula (AllenAI)、Yejin Choi (AllenAI+UW)、Xiang Ren (USC)

资金支持:

这项研究在一定程度上得到美国国家情报局(ODNI)、情报高级研究计划(IARPA)、DARPA MCS项目和NSF SMA 18-29268的支持。

将数据集添加到 GEM 的人:

Yacine Jernite 创建了初始的数据卡片。后来由 Simon Mille 进行了扩展。Sebastian Gehrmann 将其迁移到了 GEMv2 格式。

数据集结构

数据字段:

数据实例具有以下字段:

  • 概念:

    字符串值的列表,表示系统应对其进行写作的概念。有 3 到 5 个项,构成了任务的输入。

  • 目标:

    一句话字符串,提及上述所有概念。构成了任务的期望输出。

示例实例

[
  {
    "concepts": ['ski', 'mountain', 'skier'],
    "target": 'Skier skis down the mountain',
  },
  {
    "concepts": ['ski', 'mountain', 'skier'],
    "target": 'Three skiers are skiing on a snowy mountain.',
  },
]

数据拆分:

数据集中的每个示例由一个包含单个名词、动词或形容词的概念集(输入)和使用这些概念的句子(输出)组成。数据集提供了对每个概念集的多个这样的句子。

Train Dev Test
Total concept-sets 32,651 993 1,497
Total sentences 67,389 4,018 6,042
Average sentence length 10.54 11.55 13.34

拆分准则:

开发集和测试集通过从源字幕数据集中提取的大小为 4 或 5 的概念集进行抽样,并请众包工人使用这些概念编写参考句子来创建。

相反,训练集中的概念集数量 3 的要多于 4 和 5 的,并使用源数据集的原始字幕作为参考。

作者还确保训练、开发和测试集具有不同的唯一概念组合,以确保组合性(详见 Table 1 中的详细信息)。

GEM 中的数据集

加入 GEM 的原因

CommonGen 是一个规模适中的语料库,具有独特的推理挑战和有趣的评估可能性。

类似的数据集:

数据集衡量的能力:

常识推理

GEM 特定的策划

修改为 GEM ?:

GEM 修改:

其他

修改细节:

添加了 CommonGen 的 4 个挑战集到 GEM 评估套件中。

是否有其他拆分?:

拆分信息:

  • 数据转移
  • 我们创建了随机选择的训练集和开发集的子集,每个子集包含约 500 个输入。

  • 转换
  • 我们对随机选择的 500 个测试实例应用了输入重排,即随机重新分配概念的顺序。

  • 子人口
  • 我们创建了一个基于输入长度的子人群,考虑了输入测试结构中概念的数量。通过比较不同长度的输入,我们可以看到系统处理不同输入大小的能力。

    Concept number Frequency English
    4 747
    5 750

    拆分动机:

    泛化和鲁棒性

    开始任务

    资源指引:

    之前的结果

    之前的结果

    评估模型能力:

    常识推理

    指标:

    其他:其他指标, BLEU, ROUGE, METEOR

    其他指标:

    • SPICE:一种基于场景图的图像字幕评估指标
    • CIDEr:基于余弦相似度的 TF-IDF 加权 n-gram 计数之间的 n-gram 重叠度指标

    提议的评估:

    主要指标是字幕评估指标,因为原始概念列表是从字幕数据集中提取的。进行了一项人工主题研究,邀请了五名研究生对两种模型中的“常识合理性”进行两两排序。

    是否有可用的之前结果?:

    其他评估方法:

    目前性能最好的模型 KFCNet( https://aclanthology.org/2021.findings-emnlp.249/ )使用相同的自动评估,但没有进行任何人工评估。

    相关的之前结果:

    最相关的结果可以在 leaderboard 上查看

    数据集策划

    原始策划

    原始策划理由:

    数据集创建者选择了在图像和视频字幕中出现的一组概念(通过 POS 标注器识别),以确保可以想象和构建包含该集的可能真实世界情形。 paper 中的第 3.1 节描述了一种采样方案,可以在选择常见概念的同时鼓励集合的多样性。

    交流目标:

    演讲者需要产生一句连贯的句子,提及所有源概念,并描述一个可能在图片或视频中捕捉到的情况。

    源自不同来源:

    源详细信息:

    语言数据

    如何获得语言数据?:

    众包

    众包来源:

    亚马逊 Mechanical Turk

    语言生成者:

    训练数据由源数据集的概念集和标题组成。概念集是图像或视频的标签集,通过一种启发式方法选择,以最大程度地增加多样性,同时确保它们代表可能的情景。

    dev 和 test 集的句子是由亚马逊 Mechanical Turk 的众包工人创建的。工人展示了一个示例生成以及一组包含 4 或 5 个概念名称及其词性标记的概念,并要求他们编写:

    • 提及所有概念的一句话
    • 解释句子如何连接这些概念
    Appendix 的图 7 提供了界面的截图。

    涵盖的主题:

    未提供信息。

    数据验证:

    由数据策划验证

    是否进行了数据筛选?:

    算法筛选

    筛选条件:

    在数据收集过程中,如果工人提供的解释过于简短,句子中对输入覆盖不好,或者输出在 GPT-2 模型下的困惑度很高,工人将被取消资格并被新的工人取而代之。

    结构化注释

    是否有其他注释?:

    注释服务?:

    同意

    任何同意政策?:

    使用数据的理由:

    数据从 Mechanical Turk 获取,这意味着评定者意识到他们的注释可能会被公开用于研究目的。

    包含个人身份信息(PII)

    包含 PII 吗?:

    没有 PII

    无 PII 的理由:

    概念限于动词、形容词和普通名词,并且标题中没有提供个人信息。

    维护

    有维护计划吗?:

    更广泛的社会背景

    关于数据集社会影响的之前工作

    基于数据的模型的使用情况:

    对弱势社区的影响

    是否满足弱势社区的需求?:

    偏见讨论

    有文档化的社会偏见吗?:

    语言生成者是否代表了使用该语言的人口?:

    该数据集是使用来自图像字幕系统的数据创建的,可能继承了这些系统中的一些社会偏见(例如,请参见 Tang et al. 2020 )。

    另一个相关的问题是初始图片和视频选择引入的暴露偏见,这些偏见往往以全美常见的情况为代价,而忽视了世界其他地方的情况(例如,Flickr 是一家位于美国、在加拿大成立的公司)。有关潜在的暴露偏见影响的更多讨论,请参见 The Social Impact of Natural Language Processing

    使用数据的注意事项

    PII 风险和责任

    潜在 PII 风险:

    概念限于动词、形容词和普通名词,并且标题中没有提供个人信息。

    许可证

    数据集的版权限制:

    开放许可证 - 允许商业使用

    语言数据的版权限制:

    开放许可证 - 允许商业使用

    已知的技术限制

    技术限制:

    数据集为英语,这是一种存在大量现有资源的语言。

    在验证开发和测试句子时使用了 GPT-2 might be cause for similar concern ,但我们注意到作者只使用模型来排除极高困惑度的序列,这更不太可能暴露这些偏见。

    开发和测试集中的语言是众包生成的,这意味着它是由主要目标是速度的工人编写的。这可能会对目标的质量和多样性产生影响。众包工人的人口分布也与工人来源地的基本人口分布不完全一致,这可能会导致情况或对这些情况的基本期望的不同表示。

    不适合的应用案例:

    由于美国情况的过度代表,该系统可能不适用于全球用户。此外,仅提供有关数据集质量的有限信息,系统可能因未知问题而失败。

    不推荐使用的用例:

    任何系统都需要对更广泛的未见过的概念集进行评估,而不仅仅是提供的数据集。由于测试集的参考是私有的,不知道结果在集合方法之外的范围内有多好。