数据集:
GEM/viggo
任务:
表格到文本语言:
en计算机处理:
unknown语言创建人:
unknown批注创建人:
none源数据集:
original其他:
data-to-text许可:
cc-by-sa-4.0可以在 GEM Website 上找到主数据卡。
ViGGO 是一个英文的数据到文本生成数据集,主要关于视频游戏领域,目标响应更多地是对话而不是信息查询,但仍受到意义表示中呈现的信息的限制。该数据集相对较小,大约有5,000个数据集但非常干净,因此可用于评估神经模型的迁移学习、低资源或少样本能力。
可以通过以下方式加载数据集:
import datasets data = datasets.load_dataset('GEM/viggo')
可以在此处找到数据加载器:
here网站:
Wesbite论文:
ACL Anthology作者:
Juraj Juraska,Kevin K. Bowden,Marilyn Walker论文: ACL Anthology
BibTex@inproceedings{juraska-etal-2019-viggo, title = "{V}i{GGO}: A Video Game Corpus for Data-To-Text Generation in Open-Domain Conversation", author = "Juraska, Juraj and Bowden, Kevin and Walker, Marilyn", booktitle = "Proceedings of the 12th International Conference on Natural Language Generation", month = oct # "{--}" # nov, year = "2019", address = "Tokyo, Japan", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/W19-8623", doi = "10.18653/v1/W19-8623", pages = "164--172", }联系人名称:
Juraj Juraska
联系人电子邮件:jjuraska@ucsc.edu
有排行榜吗?:否
否
覆盖的语言:英语
许可:cc-by-sa-4.0:知识共享署名相同方式共享 4.0 国际
预期使用目的:ViGGO 被设计用于聊天机器人的数据到文本生成任务(与任务导向型对话系统相对),目标响应更多地是对话而不是信息查询,但仍受到意义表示中呈现的信息的限制。该数据集相对较小而干净,还可用于演示神经模型的迁移学习能力。
主要任务:数据到文本
学术机构
组织:加利福尼亚大学圣塔克鲁兹分校
数据集创建者:Juraj Juraska,Kevin K. Bowden,Marilyn Walker
谁将数据集添加到 GEM?:Juraj Juraska
数据集中的每个示例都具有以下两个字段:
每个 MR 都是一个展平的属性-值对的字典,"包裹"在对话行为类型指示中。选择此格式主要是因为其紧凑性,但也可以轻松地将多个 DA(每个 DA 可能具有不同的属性)连接在一个 MR 中。
以下是 ViGGO 中所有可能的属性(也称为“插槽”)的列表,以及它们的类型/可能的值:
数据集中的每个 MR 都有3个不同的参考话语,这些话语被表示为具有相同 MR 的3个单独的示例。
结构原因数据集结构主要遵循流行的 E2E 数据集的格式,但是添加了对话行为类型指示、引入新的列表类型属性以及多词属性名称的统一命名约定。
示例实例{ "mr": "give_opinion(name[SpellForce 3], rating[poor], genres[real-time strategy, role-playing], player_perspective[bird view])", "ref": "I think that SpellForce 3 is one of the worst games I've ever played. Trying to combine the real-time strategy and role-playing genres just doesn't work, and the bird view perspective makes it near impossible to play." }数据拆分
ViGGO 被分为3个分区,训练集与验证集和测试集之间没有共同的 MR(在对“名称”和“开发人员”插槽进行编译之后)。分区中示例的比例大约为7.5:1:1.5,它们的确切大小如下所示:
注意:唯一的 MR 数量不是所有示例的三分之一的原因是,对于每个请求属性 DA(仅有一个插槽,没有值),收集了12个参考话语,而不是3个。
拆分标准在分区中保留了类似的 MR 长度和插槽分布。另一方面,DA 类型的分布稍微偏向于较少的“信息查询”DA 实例(最普遍的 DA 类型)以及验证集和测试集中更多不太普遍的 DA 的比例较高。
{ "mr": "request_attribute(player_perspective[])", "ref": "Is there a certain player perspective that you prefer over others in games you play?" }, { "mr": "inform(name[FIFA 12], esrb[E (for Everyone)], genres[simulation, sport], player_perspective[bird view, side view], platforms[PlayStation, Xbox, Nintendo, PC], available_on_steam[no])", "ref": "Fifa 12 is a decent sports simulator. It's pretty cool how the game swaps from the bird's eye perspective down to a side view while you're playing. You can get the game for PlayStation, Xbox, Nintendo consoles, and PC, but unfortunately it's not on Steam. Of course, as a sports game there's not much objectionable content so it's rated E." }, { "mr": "inform(name[Super Bomberman], release_year[1993], genres[action, strategy], has_multiplayer[no], platforms[Nintendo, PC], available_on_steam[no], has_linux_release[no], has_mac_release[no])", "ref": "Super Bomberman is one of my favorite Nintendo games, also available on PC, though not through Steam. It came out all the way back in 1993, and you can't get it for any modern consoles, unfortunately, so no online multiplayer, or of course Linux or Mac releases either. That said, it's still one of the most addicting action-strategy games out there." }
ViGGO 是一个相当小的数据集,但包含了比大多数其他结构化意义表示的自然语言生成数据集更多种类的话语类型,这使得从模型评估的角度来看它更为有趣,因为模型必须学会区分共享相同插槽的各种对话行为类型。
类似的数据集是的
唯一语言覆盖范围否
与其他 GEM 数据集的不同之处ViGGO 的语言更加随性和会话性,与大多数流行数据集相比,它与相同类型的数据到文本任务不同。此外,尽管非常适合数据到文本生成,但视频游戏领域在自然语言生成社区中是一个相当罕见的领域,考虑到它提供了许多属性可以讨论并且可以用结构化格式进行描述的实体。
否
是否有其他拆分?:否
BLEU、METEOR、ROUGE、BERT-Score、BLEURT、其他:其他指标
其他指标SER(插槽错误率):表示测试集中话语中缺失/不正确/重复/虚构的插槽提及的比例。一个模型在这个指标中得分越接近零,其输出的语义准确性就越高。此指标通常通过手动计算一小部分生成输出或使用领域特定的正则表达式规则和手册程序进行启发式计算。
是否有以前的结果?是
相关的以前的结果ViGGO 的主要目的是在新领域中创建数据到文本语料库且以对话形式进行对话支持开放领域聊天机器人,而不是任务导向型对话系统。为此,数据集包含了9种可推广的对话行为类型,围绕着视频游戏的各个方面展开。这个想法是类似的,相对较小的数据集可以相对容易地收集到其他对话领域中,尤其是其他娱乐领域(如音乐或书籍),但也可能包括动物或食物等主题,以支持具有可控神经 NLG 的开放领域对话代理。
ViGGO 数据集的另一个期望质量是整洁(无拼写错误和语法错误)和语义准确性,这通常在其他众包数据到文本的语料库中并不是常见情况。从数据到文本生成任务的角度来看,没有必要让生成模型去解决噪声问题,因为在通常可配置和严格控制的真实系统中,负责创建 NLG 模块输入的对话管理器通常是可配置的。
交流目标在关于视频游戏的对话背景中,生成结构化意义表示的响应。它可以是游戏的简短观点或描述,也可以是对属性(例如类型、玩家视角或平台)偏好/确认的请求,或者询问对特定类型游戏的喜好。
是否来自不同来源否
众包
在哪里进行了众包?亚马逊的机械土耳其人平台
语言生产者付费的众包工作者来自英语为母语的国家,他们至少完成了1000个任务,并且任务批准率达到了98%或更高。此外,众包工作者在说明中被劝阻除非自己是游戏玩家之外,否则不要承担这个任务。
讨论的主题该数据集侧重于视频游戏及其各个方面,因此话语的语言可能包含视频游戏特定的行话。
数据验证由数据策划者验证
数据预处理首先,使用正则表达式对特殊字符、标点符号进行标准化并更正不希望的缩写/拼写错误的标准领域术语(例如,将“Play station”或“PS4”更改为统一的“PlayStation”)。同时,移除或在某些术语中统一使用连字符,例如,“单人游戏”。尽管如“第一人称”这样的短语在用作形容词时应正确带有连字符,但众包工作者在此规则上使用得非常不一致。为了避免在评估期间通过参考话语中的连字符的有无对模型输出进行惩罚,将所有这种短语中的连字符移除,而不管名词与形容词的使用。
其次,开发了一套广泛的启发式方法来识别与插槽相关的错误。该过程揭示了绝大多数缺失或不正确的插槽提及,随后根据相应的 MR 进行修复。最终,这导致了一个强大的跨领域启发式插槽对齐器的开发,可用于自动计算插槽错误率。有关详细信息,请参见 Juraska and Walker, 2021 中的附录。
众包工作者有时也会注入一个在 MR 中不存在的信息片段,其中一些甚至不被任何插槽表示,例如情节或主要角色。从话语中移除这些不经请求的信息,以避免困惑神经模型。最后,解决了任何剩余的拼写错误和语法错误。
是否对数据进行了过滤?手动
过滤条件符合指定的对话行为类型、语义准确性(即确切提及与相应 MR 中的所有信息)以及最小的多余信息(例如,个人经验/观点)。只要在合理的工作量范围内,将手动修复话语,而不是将其舍弃/重新众包。
没有
注释服务?没有
没有
没有 PII
没有 PII 的理由众包工作者被指示只表达提供的意义表示中的信息,这从来没有提示他们提到有关自己的任何内容。偶尔,他们仍然会包含一些个人经验(例如,“小时候我喜欢这款游戏。”)或观点,但这些观点对于被视为 PII 来说太普遍。
没有
没有
没有
没有
数据集仅限于一个领域:视频游戏。直接使用在此数据集上训练的语言生成器在对话系统中存在这样一个缺点,即多个连续的回合讨论相同的视频游戏将重复其完整名称。ViGGO 被设计用于无上下文的生成,因此对话管理器要确保在对话中正确地使用代词替代名称,以使其更符合自然。或者,数据集可以很容易地通过自动构建省略 MR 中的 “名称” 插槽并将名称替换为代词的样本来进行增强。