您可以在 GEM Website 上找到主数据卡片。
CommonGen 是一个英文文本生成任务,旨在明确测试机器的常识生成推理能力。给定一组常见概念,任务是使用这些概念生成一个描述日常场景的连贯句子。CommonGen的挑战在于它本质上需要 1) 利用背景常识知识进行关系推理,2) 组合概括能力以处理未见过的概念组合。该数据集通过 AMT 众包和现有字幕语料库的组合构建,总共包含 30k 个概念集和 50k 个句子。请注意,CommonGen 测试集是私有的,需要提交到外部排行榜才能获取访问权限。
您可以通过以下方式加载数据集:
import datasets data = datasets.load_dataset('GEM/common_gen')
数据加载器可以在 here 找到。
网站: link
论文: Link
作者:Bill Yuchen Lin (USC)、Wangchunshu Zhou (USC)、Ming Shen (USC)、Pei Zhou (USC)、Chandra Bhagavatula (AllenAI)、Yejin Choi (AllenAI+UW)、Xiang Ren (USC)
网页: link
下载: Link
论文: Link
联系人姓名:
Bill Yuchen Lin
联系人邮箱:
yuchen.lin@usc.edu
是否有排行榜?:
是
排行榜链接:
排行榜详情:
模型输出通过众包参考句子进行评估,并根据 SPICE 分数排名。排行榜还报告 BLEU-4 和 CIDEr 分数。
多语言?:
否
覆盖方言:
没有提供区域限制的信息,因此我们假设涵盖了 Mechanical Turk 评定者所使用的方言。
覆盖的语言:
英语
语言归属:
概念来自多个英语图像字幕数据集,并通过 Amazon Mechanical Turk 收集数据。未提供关于区域限制的信息。
许可证:
mit: MIT 许可证
使用目的:
CommonGen 是一个受限制的文本生成任务,与一个基准数据集相关联,旨在明确测试机器的生成型常识推理能力。
机构类型:
学术型 , 独立型
机构组织:
该数据集由南加州大学和 Allen 人工智能研究所的研究者联合团队整理。
数据集创建者:
Bill Yuchen Lin (USC)、Wangchunshu Zhou (USC)、Ming Shen (USC)、Pei Zhou (USC)、Chandra Bhagavatula (AllenAI)、Yejin Choi (AllenAI+UW)、Xiang Ren (USC)
资金支持:
这项研究在一定程度上得到美国国家情报局(ODNI)、情报高级研究计划(IARPA)、DARPA MCS项目和NSF SMA 18-29268的支持。
将数据集添加到 GEM 的人:
Yacine Jernite 创建了初始的数据卡片。后来由 Simon Mille 进行了扩展。Sebastian Gehrmann 将其迁移到了 GEMv2 格式。
数据字段:
数据实例具有以下字段:
字符串值的列表,表示系统应对其进行写作的概念。有 3 到 5 个项,构成了任务的输入。
一句话字符串,提及上述所有概念。构成了任务的期望输出。
示例实例
[ { "concepts": ['ski', 'mountain', 'skier'], "target": 'Skier skis down the mountain', }, { "concepts": ['ski', 'mountain', 'skier'], "target": 'Three skiers are skiing on a snowy mountain.', }, ]
数据拆分:
数据集中的每个示例由一个包含单个名词、动词或形容词的概念集(输入)和使用这些概念的句子(输出)组成。数据集提供了对每个概念集的多个这样的句子。
Train | Dev | Test | |
---|---|---|---|
Total concept-sets | 32,651 | 993 | 1,497 |
Total sentences | 67,389 | 4,018 | 6,042 |
Average sentence length | 10.54 | 11.55 | 13.34 |
拆分准则:
开发集和测试集通过从源字幕数据集中提取的大小为 4 或 5 的概念集进行抽样,并请众包工人使用这些概念编写参考句子来创建。
相反,训练集中的概念集数量 3 的要多于 4 和 5 的,并使用源数据集的原始字幕作为参考。
作者还确保训练、开发和测试集具有不同的唯一概念组合,以确保组合性(详见 Table 1 中的详细信息)。
CommonGen 是一个规模适中的语料库,具有独特的推理挑战和有趣的评估可能性。
类似的数据集:
否
数据集衡量的能力:
常识推理
修改为 GEM ?:
是
GEM 修改:
其他
修改细节:
添加了 CommonGen 的 4 个挑战集到 GEM 评估套件中。
是否有其他拆分?:
是
拆分信息:
我们创建了随机选择的训练集和开发集的子集,每个子集包含约 500 个输入。
我们对随机选择的 500 个测试实例应用了输入重排,即随机重新分配概念的顺序。
我们创建了一个基于输入长度的子人群,考虑了输入测试结构中概念的数量。通过比较不同长度的输入,我们可以看到系统处理不同输入大小的能力。
Concept number | Frequency English |
---|---|
4 | 747 |
5 | 750 |
拆分动机:
泛化和鲁棒性
资源指引:
评估模型能力:
常识推理
指标:
其他:其他指标, BLEU, ROUGE, METEOR
其他指标:
提议的评估:
主要指标是字幕评估指标,因为原始概念列表是从字幕数据集中提取的。进行了一项人工主题研究,邀请了五名研究生对两种模型中的“常识合理性”进行两两排序。
是否有可用的之前结果?:
是
其他评估方法:
目前性能最好的模型 KFCNet( https://aclanthology.org/2021.findings-emnlp.249/ )使用相同的自动评估,但没有进行任何人工评估。
相关的之前结果:
最相关的结果可以在 leaderboard 上查看
原始策划理由:
数据集创建者选择了在图像和视频字幕中出现的一组概念(通过 POS 标注器识别),以确保可以想象和构建包含该集的可能真实世界情形。 paper 中的第 3.1 节描述了一种采样方案,可以在选择常见概念的同时鼓励集合的多样性。
交流目标:
演讲者需要产生一句连贯的句子,提及所有源概念,并描述一个可能在图片或视频中捕捉到的情况。
源自不同来源:
是
源详细信息:
如何获得语言数据?:
众包
众包来源:
亚马逊 Mechanical Turk
语言生成者:
训练数据由源数据集的概念集和标题组成。概念集是图像或视频的标签集,通过一种启发式方法选择,以最大程度地增加多样性,同时确保它们代表可能的情景。
dev 和 test 集的句子是由亚马逊 Mechanical Turk 的众包工人创建的。工人展示了一个示例生成以及一组包含 4 或 5 个概念名称及其词性标记的概念,并要求他们编写:
涵盖的主题:
未提供信息。
数据验证:
由数据策划验证
是否进行了数据筛选?:
算法筛选
筛选条件:
在数据收集过程中,如果工人提供的解释过于简短,句子中对输入覆盖不好,或者输出在 GPT-2 模型下的困惑度很高,工人将被取消资格并被新的工人取而代之。
是否有其他注释?:
无
注释服务?:
否
任何同意政策?:
否
使用数据的理由:
数据从 Mechanical Turk 获取,这意味着评定者意识到他们的注释可能会被公开用于研究目的。
包含 PII 吗?:
没有 PII
无 PII 的理由:
概念限于动词、形容词和普通名词,并且标题中没有提供个人信息。
有维护计划吗?:
否
基于数据的模型的使用情况:
否
是否满足弱势社区的需求?:
否
有文档化的社会偏见吗?:
否
语言生成者是否代表了使用该语言的人口?:
该数据集是使用来自图像字幕系统的数据创建的,可能继承了这些系统中的一些社会偏见(例如,请参见 Tang et al. 2020 )。
另一个相关的问题是初始图片和视频选择引入的暴露偏见,这些偏见往往以全美常见的情况为代价,而忽视了世界其他地方的情况(例如,Flickr 是一家位于美国、在加拿大成立的公司)。有关潜在的暴露偏见影响的更多讨论,请参见 The Social Impact of Natural Language Processing 。
潜在 PII 风险:
概念限于动词、形容词和普通名词,并且标题中没有提供个人信息。
数据集的版权限制:
开放许可证 - 允许商业使用
语言数据的版权限制:
开放许可证 - 允许商业使用
技术限制:
数据集为英语,这是一种存在大量现有资源的语言。
在验证开发和测试句子时使用了 GPT-2 might be cause for similar concern ,但我们注意到作者只使用模型来排除极高困惑度的序列,这更不太可能暴露这些偏见。
开发和测试集中的语言是众包生成的,这意味着它是由主要目标是速度的工人编写的。这可能会对目标的质量和多样性产生影响。众包工人的人口分布也与工人来源地的基本人口分布不完全一致,这可能会导致情况或对这些情况的基本期望的不同表示。
不适合的应用案例:
由于美国情况的过度代表,该系统可能不适用于全球用户。此外,仅提供有关数据集质量的有限信息,系统可能因未知问题而失败。
不推荐使用的用例:
任何系统都需要对更广泛的未见过的概念集进行评估,而不仅仅是提供的数据集。由于测试集的参考是私有的,不知道结果在集合方法之外的范围内有多好。