数据集:

GEM/viggo

语言:

en

计算机处理:

unknown

语言创建人:

unknown

批注创建人:

none

源数据集:

original
英文

GEM/viggo 数据集卡

主数据卡链接

可以在 GEM Website 上找到主数据卡。

数据集摘要

ViGGO 是一个英文的数据到文本生成数据集,主要关于视频游戏领域,目标响应更多地是对话而不是信息查询,但仍受到意义表示中呈现的信息的限制。该数据集相对较小,大约有5,000个数据集但非常干净,因此可用于评估神经模型的迁移学习、低资源或少样本能力。

可以通过以下方式加载数据集:

import datasets
data = datasets.load_dataset('GEM/viggo')

可以在此处找到数据加载器:

here

网站:

Wesbite

论文:

ACL Anthology

作者:

Juraj Juraska,Kevin K. Bowden,Marilyn Walker

数据集概述

在哪里找到数据及其文档

网页: Wesbite

论文: ACL Anthology

BibTex
@inproceedings{juraska-etal-2019-viggo,
    title = "{V}i{GGO}: A Video Game Corpus for Data-To-Text Generation in Open-Domain Conversation",
    author = "Juraska, Juraj  and
      Bowden, Kevin  and
      Walker, Marilyn",
    booktitle = "Proceedings of the 12th International Conference on Natural Language Generation",
    month = oct # "{--}" # nov,
    year = "2019",
    address = "Tokyo, Japan",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/W19-8623",
    doi = "10.18653/v1/W19-8623",
    pages = "164--172",
}
联系人名称:

Juraj Juraska

联系人电子邮件:

jjuraska@ucsc.edu

有排行榜吗?:

语言和使用目的

多语言吗?:

覆盖的语言:

英语

许可:

cc-by-sa-4.0:知识共享署名相同方式共享 4.0 国际

预期使用目的:

ViGGO 被设计用于聊天机器人的数据到文本生成任务(与任务导向型对话系统相对),目标响应更多地是对话而不是信息查询,但仍受到意义表示中呈现的信息的限制。该数据集相对较小而干净,还可用于演示神经模型的迁移学习能力。

主要任务:

数据到文本

信用

组织类型:

学术机构

组织:

加利福尼亚大学圣塔克鲁兹分校

数据集创建者:

Juraj Juraska,Kevin K. Bowden,Marilyn Walker

谁将数据集添加到 GEM?:

Juraj Juraska

数据集结构

数据字段:

数据集中的每个示例都具有以下两个字段:

  • mr:意义表示(MR),以结构化格式提供信息传达以及期望的对话行为(DA)类型。
  • ref:参考输出,即在 MR 中实现所有信息的相应话语。

每个 MR 都是一个展平的属性-值对的字典,"包裹"在对话行为类型指示中。选择此格式主要是因为其紧凑性,但也可以轻松地将多个 DA(每个 DA 可能具有不同的属性)连接在一个 MR 中。

以下是 ViGGO 中所有可能的属性(也称为“插槽”)的列表,以及它们的类型/可能的值:

  • name:视频游戏的名称(例如,Rise of the Tomb Raider)。
  • release_year:游戏发布的年份(例如,2015)。
  • exp_release_date:对于尚未发布的游戏,预计发布的日期(例如,2019年2月22日)。注意:此插槽不能与发布年份在同一个对话行为中共同出现。
  • developer:创建游戏的工作室/个人的名称(例如,Crystal Dynamics)。
  • genres:来自一组可能值的一个或多个流派标签的列表(例如,动作冒险,射击)。
  • player_perspective:游戏可以从其中一个或多个透视图(可能的值:第一人称,第三人称,侧视,鸟瞰图)进行游玩的透视图的列表。
  • platforms:游戏正式发布的一个或多个游戏平台的列表(可能的值:PC、PlayStation、Xbox、Nintendo、Nintendo Switch)。
  • esrb:由 ESRB 确定的游戏内容评级(可能的值:E(适合所有人),E 10+(适合10岁及以上人群),T(适合青少年),M(适合成年人))。
  • rating:根据对话行为使用的插槽,它是游戏的平均评级或游戏的喜好的分类表示(可能的值:优秀,良好,平均,差)。
  • has_multiplayer:指示游戏是否支持多人游戏或只能单人游戏的值(可能的值:是,否)。
  • available_on_steam:指示游戏是否能够通过 Steam 数字发行服务购买的值(可能的值:是,否)。
  • has_linux_release:指示游戏是否支持 Linux 操作系统的值(可能的值:是,否)。
  • has_mac_release:指示游戏是否支持 macOS 的值(可能的值:是,否)。
  • specifier:由请求对话行为使用的游戏特定符号,通常是一个形容词(例如,上瘾性的,最容易,被高估的,视觉效果令人印象深刻)。

数据集中的每个 MR 都有3个不同的参考话语,这些话语被表示为具有相同 MR 的3个单独的示例。

结构原因

数据集结构主要遵循流行的 E2E 数据集的格式,但是添加了对话行为类型指示、引入新的列表类型属性以及多词属性名称的统一命名约定。

示例实例
{
    "mr": "give_opinion(name[SpellForce 3], rating[poor], genres[real-time strategy, role-playing], player_perspective[bird view])",
    "ref": "I think that SpellForce 3 is one of the worst games I've ever played. Trying to combine the real-time strategy and role-playing genres just doesn't work, and the bird view perspective makes it near impossible to play."
}
数据拆分

ViGGO 被分为3个分区,训练集与验证集和测试集之间没有共同的 MR(在对“名称”和“开发人员”插槽进行编译之后)。分区中示例的比例大约为7.5:1:1.5,它们的确切大小如下所示:

  • 训练集:5,103(1,675 个唯一的 MR)
  • 验证集:714(238 个唯一的 MR)
  • 测试集:1,083(359个唯一的 MR)
  • 总计:6,900(2,253个唯一的 MR)

注意:唯一的 MR 数量不是所有示例的三分之一的原因是,对于每个请求属性 DA(仅有一个插槽,没有值),收集了12个参考话语,而不是3个。

拆分标准

在分区中保留了类似的 MR 长度和插槽分布。另一方面,DA 类型的分布稍微偏向于较少的“信息查询”DA 实例(最普遍的 DA 类型)以及验证集和测试集中更多不太普遍的 DA 的比例较高。

{
    "mr": "request_attribute(player_perspective[])",
    "ref": "Is there a certain player perspective that you prefer over others in games you play?"
},
{
    "mr": "inform(name[FIFA 12], esrb[E (for Everyone)], genres[simulation, sport], player_perspective[bird view, side view], platforms[PlayStation, Xbox, Nintendo, PC], available_on_steam[no])",
    "ref": "Fifa 12 is a decent sports simulator. It's pretty cool how the game swaps from the bird's eye perspective down to a side view while you're playing. You can get the game for PlayStation, Xbox, Nintendo consoles, and PC, but unfortunately it's not on Steam. Of course, as a sports game there's not much objectionable content so it's rated E."
},
{
    "mr": "inform(name[Super Bomberman], release_year[1993], genres[action, strategy], has_multiplayer[no], platforms[Nintendo, PC], available_on_steam[no], has_linux_release[no], has_mac_release[no])",
    "ref": "Super Bomberman is one of my favorite Nintendo games, also available on PC, though not through Steam. It came out all the way back in 1993, and you can't get it for any modern consoles, unfortunately, so no online multiplayer, or of course Linux or Mac releases either. That said, it's still one of the most addicting action-strategy games out there."
}

GEM 中的数据集

纳入 GEM 的原因

数据集为何在 GEM 中?

ViGGO 是一个相当小的数据集,但包含了比大多数其他结构化意义表示的自然语言生成数据集更多种类的话语类型,这使得从模型评估的角度来看它更为有趣,因为模型必须学会区分共享相同插槽的各种对话行为类型。

类似的数据集

是的

唯一语言覆盖范围

与其他 GEM 数据集的不同之处

ViGGO 的语言更加随性和会话性,与大多数流行数据集相比,它与相同类型的数据到文本任务不同。此外,尽管非常适合数据到文本生成,但视频游戏领域在自然语言生成社区中是一个相当罕见的领域,考虑到它提供了许多属性可以讨论并且可以用结构化格式进行描述的实体。

GEM 特定的策划

是否为 GEM 进行了修改?

是否有其他拆分?:

开始任务

资源指南 技术术语
  • MR = 意义表示
  • DA = 对话行为

以前的结果

以前的结果

指标

BLEU、METEOR、ROUGE、BERT-Score、BLEURT、其他:其他指标

其他指标

SER(插槽错误率):表示测试集中话语中缺失/不正确/重复/虚构的插槽提及的比例。一个模型在这个指标中得分越接近零,其输出的语义准确性就越高。此指标通常通过手动计算一小部分生成输出或使用领域特定的正则表达式规则和手册程序进行启发式计算。

是否有以前的结果?

相关的以前的结果

数据集策划

原始策划

原始策划原因

ViGGO 的主要目的是在新领域中创建数据到文本语料库且以对话形式进行对话支持开放领域聊天机器人,而不是任务导向型对话系统。为此,数据集包含了9种可推广的对话行为类型,围绕着视频游戏的各个方面展开。这个想法是类似的,相对较小的数据集可以相对容易地收集到其他对话领域中,尤其是其他娱乐领域(如音乐或书籍),但也可能包括动物或食物等主题,以支持具有可控神经 NLG 的开放领域对话代理。

ViGGO 数据集的另一个期望质量是整洁(无拼写错误和语法错误)和语义准确性,这通常在其他众包数据到文本的语料库中并不是常见情况。从数据到文本生成任务的角度来看,没有必要让生成模型去解决噪声问题,因为在通常可配置和严格控制的真实系统中,负责创建 NLG 模块输入的对话管理器通常是可配置的。

交流目标

在关于视频游戏的对话背景中,生成结构化意义表示的响应。它可以是游戏的简短观点或描述,也可以是对属性(例如类型、玩家视角或平台)偏好/确认的请求,或者询问对特定类型游戏的喜好。

是否来自不同来源

语言数据

如何获取语言数据?

众包

在哪里进行了众包?

亚马逊的机械土耳其人平台

语言生产者

付费的众包工作者来自英语为母语的国家,他们至少完成了1000个任务,并且任务批准率达到了98%或更高。此外,众包工作者在说明中被劝阻除非自己是游戏玩家之外,否则不要承担这个任务。

讨论的主题

该数据集侧重于视频游戏及其各个方面,因此话语的语言可能包含视频游戏特定的行话。

数据验证

由数据策划者验证

数据预处理

首先,使用正则表达式对特殊字符、标点符号进行标准化并更正不希望的缩写/拼写错误的标准领域术语(例如,将“Play station”或“PS4”更改为统一的“PlayStation”)。同时,移除或在某些术语中统一使用连字符,例如,“单人游戏”。尽管如“第一人称”这样的短语在用作形容词时应正确带有连字符,但众包工作者在此规则上使用得非常不一致。为了避免在评估期间通过参考话语中的连字符的有无对模型输出进行惩罚,将所有这种短语中的连字符移除,而不管名词与形容词的使用。

其次,开发了一套广泛的启发式方法来识别与插槽相关的错误。该过程揭示了绝大多数缺失或不正确的插槽提及,随后根据相应的 MR 进行修复。最终,这导致了一个强大的跨领域启发式插槽对齐器的开发,可用于自动计算插槽错误率。有关详细信息,请参见 Juraska and Walker, 2021 中的附录。

众包工作者有时也会注入一个在 MR 中不存在的信息片段,其中一些甚至不被任何插槽表示,例如情节或主要角色。从话语中移除这些不经请求的信息,以避免困惑神经模型。最后,解决了任何剩余的拼写错误和语法错误。

是否对数据进行了过滤?

手动

过滤条件

符合指定的对话行为类型、语义准确性(即确切提及与相应 MR 中的所有信息)以及最小的多余信息(例如,个人经验/观点)。只要在合理的工作量范围内,将手动修复话语,而不是将其舍弃/重新众包。

结构化注释

有其他的注释吗?

没有

注释服务?

没有

同意

有任何同意政策吗?

没有

私人识别信息(PII)

包含 PII 吗?

没有 PII

没有 PII 的理由

众包工作者被指示只表达提供的意义表示中的信息,这从来没有提示他们提到有关自己的任何内容。偶尔,他们仍然会包含一些个人经验(例如,“小时候我喜欢这款游戏。”)或观点,但这些观点对于被视为 PII 来说太普遍。

维护

是否有维护计划?

没有

更广泛的社会背景

就数据集的社会影响进行的以前研究

基于数据的模型的使用情况

没有

对弱势群体需求的影响

是否满足弱势群体的需求?

没有

偏见的讨论

是否有记录的社会偏见?

没有

使用数据的考虑事项

PII 风险和责任

许可证

已知的技术限制

技术限制

数据集仅限于一个领域:视频游戏。直接使用在此数据集上训练的语言生成器在对话系统中存在这样一个缺点,即多个连续的回合讨论相同的视频游戏将重复其完整名称。ViGGO 被设计用于无上下文的生成,因此对话管理器要确保在对话中正确地使用代词替代名称,以使其更符合自然。或者,数据集可以很容易地通过自动构建省略 MR 中的 “名称” 插槽并将名称替换为代词的样本来进行增强。