数据集:

GEM/Taskmaster

任务:

对话

语言:

en

计算机处理:

unknown

语言创建人:

unknown

批注创建人:

none

源数据集:

original

预印本库:

arxiv:2012.12458

许可:

cc-by-4.0
英文

GEM/Taskmaster数据集的数据卡

链接到主数据卡

你可以在 GEM Website 找到主数据卡。

数据集概述

这是一个大型任务导向的对话数据集,模型需要生成相应的回复。输入包含上下文和模型应该生成的结构化表示。输入已经预格式化为字符串,将其转换为纯文本到文本的问题。

你可以通过以下方式加载数据集:

import datasets
data = datasets.load_dataset('GEM/Taskmaster')

数据加载器可以在 here 找到。

网站

Github

论文

Arxiv

作者

谷歌研究人员

数据集概述

数据及其文档的获取方式

网页

Github

下载

Github

论文

Arxiv

BibTex
@article{byrne2020tickettalk,
  title={TicketTalk: Toward human-level performance with end-to-end, transaction-based dialog systems},
  author={Byrne, Bill and Krishnamoorthi, Karthik and Ganesh, Saravanan and Kale, Mihir Sanjay},
  journal={arXiv preprint arXiv:2012.12458},
  year={2020}
}
联系人姓名

Karthik Krishnamoorthi

联系人邮箱

krishnamoorthi@google.com

是否有排行榜?

语言及其使用方式

是否支持多语言?

包含的方言

NA

包含的语言

英语

语言使用方

NA

许可证

cc-by-4.0:署名-国际通用

使用方式

对话

主要任务

对话回复生成

交际目标

一个包含23,789个标注对话的电影订票对话数据集。

核心贡献

策划组织类型

其他

策划组织

NA

数据集创建者

谷歌研究人员

资助

谷歌

谁将数据集添加到GEM中?

Tosin Adewumi(吕勒奥技术大学)

数据集结构

数据字段
  • gem_id:唯一的示例ID
  • context:对话的上下文
  • target:表示目标的字符串 - references:表示目标的列表 - conversation_id:对话的唯一ID
结构的原因

NA

标签是如何选择的?

NA

示例实例
{'context': "<PR>get_movie_attribute<PRAN>rating.movie<PRAV>rated R<C><U>I wanna see a movie<A>where are you?<U>spring hills kansas<PN>find_theaters<PAN>location<PAV>spring hills kansas<PR>find_theaters<PRAN>name.theater<PRAV>AMC Holiday Theater<PRAV>Cinemark Downtown<A>there are 2 theaters near you, the AMC Holiday Theater and Cinemark Downtown. Did you know which movie you'd like to see?<U>funny one please<PN>find_movies<PAN>location<PAV>spring hills kansas<PR>find_movies<PRAN>name.movie<PRAV>Not My Problem<PRAV>Family Jewels<PN>get_movie_attribute<PAN>name.movie<PAV>Not My Problem<PAN>attribute<PAV>name.genre<PR>get_movie_attribute<PRAN>name.genre<PRAV>comedy<PN>get_movie_attribute<PAN>name.movie<PAV>Not My Problem<PAN>attribute<PAV>name.person<PR>get_movie_attribute<PRAN>name.person<PRAV>Matt Damon<PN>get_movie_attribute<PAN>name.movie<PAV>Not My Problem<PAN>attribute<PAV>name.person<PR>get_movie_attribute<PRAN>name.person<PRAV>Noah Schnapp<PN>get_movie_attribute<PAN>name.movie<PAV>Family Jewels<PAN>attribute<PAV>name.genre<PR>get_movie_attribute<PRAN>name.genre<PRAV>romantic comedy<PN>get_movie_attribute<PAN>name.movie<PAV>Family Jewels<PAN>attribute<PAV>name.person<PR>get_movie_attribute<PRAN>name.person<PRAV>Melissa McCarthy<PN>get_movie_attribute<PAN>name.movie<PAV>Family Jewels<PAN>attribute<PAV>name.person<PR>get_movie_attribute<PRAN>name.person<PRAV>Ryan Reynolds<A>There's the comedy film called Not My Problem starring Matt Damon and Noah Schnapp. There's also a romantic comedy called Family Jewels starring Melissa McCarthy and Ryan Reynolds.<U>what ratings are there?<PN>get_movie_attribute<PAN>name.movie<PAV>Not My Problem<PAN>attribute<PAV>rating.movie<PR>get_movie_attribute<PRAN>rating.movie<PRAV>rated PG-13<PN>get_movie_attribute<PAN>name.movie<PAV>Family Jewels<PAN>attribute<PAV>rating.movie",
 'conversation_id': 'dlg-d1f52e7e-c34c-4e85-b406-85ed138b5068',
 'gem_id': 'Taskmaster-train-0',
 'references': ['Not My Problem is rated PG-13 and Family Jewels is rated R.'],
 'target': 'Not My Problem is rated PG-13 and Family Jewels is rated R.'}
数据拆分

- 训练:187182个示例 - 开发:23406个示例 - 测试:23316个示例

拆分标准

NA

NA

GEM中的数据集

纳入GEM的理由

数据集在GEM中的原因是什么?

有意义的对话生成

类似的数据集

独特的语言覆盖范围

与其他GEM数据集的差异

NA

数据集衡量的能力

NA

GEM特定的策划

为GEM做了修改吗?

GEM的修改

其他

修改详细信息

gem_id字段已添加到3个数据拆分中

还有其他拆分吗?

开始处理任务

资源指南

https://github.com/google-research-datasets/Taskmaster/tree/master/TM-3-2020

专业术语

NA

先前的结果

先前的结果

评估模型能力

BLEU:60

指标

BLEU

建议的评估方式

自动评估

是否可用先前的结果?

其他评估方法

NA

相关的先前结果

NA

数据集策划

原始策划

原始策划的理由

NA

交际目标

一个包含23,789个标注对话的电影订票对话数据集。

来自不同来源吗?

语言数据

语言数据的获取方式是什么?

众包

众包在哪里进行?

参与性实验

语言生成者

NA

涵盖的主题

订票

数据验证

未验证

数据是否经过筛选?

未筛选

结构化注释

是否有其他注释?

注释服务?

同意

是否有同意政策?

使用数据的理由

NA

私人身份信息(PII)

是否包含PII?

无PII

对于没有PII的理由

基于不包含个人信息的订票信息

维护

有维护计划吗?

更广泛的社会背景

有关数据集社会影响的先前工作

基于数据的模型的使用

对弱势群体的影响

是否满足弱势群体的需求?

偏见讨论

是否有记录的社会偏见?

不确定

语言生成者是否代表该语言?

NA

使用数据的注意事项

PII风险和责任

潜在的PII风险

NA

许可证

数据集的版权限制

开放许可证 - 允许商业使用

语言数据的版权限制

公共领域

已知的技术限制

技术限制

NA

不适合的应用场景

NA

不推荐使用的用例

NA