你可以在 GEM Website 找到主数据卡。
这是一个大型任务导向的对话数据集,模型需要生成相应的回复。输入包含上下文和模型应该生成的结构化表示。输入已经预格式化为字符串,将其转换为纯文本到文本的问题。
你可以通过以下方式加载数据集:
import datasets data = datasets.load_dataset('GEM/Taskmaster')
数据加载器可以在 here 找到。
网站 论文 作者谷歌研究人员
@article{byrne2020tickettalk, title={TicketTalk: Toward human-level performance with end-to-end, transaction-based dialog systems}, author={Byrne, Bill and Krishnamoorthi, Karthik and Ganesh, Saravanan and Kale, Mihir Sanjay}, journal={arXiv preprint arXiv:2012.12458}, year={2020} }联系人姓名
Karthik Krishnamoorthi
联系人邮箱krishnamoorthi@google.com
是否有排行榜?否
否
包含的方言NA
包含的语言英语
语言使用方NA
许可证cc-by-4.0:署名-国际通用
使用方式对话
主要任务对话回复生成
交际目标一个包含23,789个标注对话的电影订票对话数据集。
其他
策划组织NA
数据集创建者谷歌研究人员
资助谷歌
谁将数据集添加到GEM中?Tosin Adewumi(吕勒奥技术大学)
NA
标签是如何选择的?NA
示例实例{'context': "<PR>get_movie_attribute<PRAN>rating.movie<PRAV>rated R<C><U>I wanna see a movie<A>where are you?<U>spring hills kansas<PN>find_theaters<PAN>location<PAV>spring hills kansas<PR>find_theaters<PRAN>name.theater<PRAV>AMC Holiday Theater<PRAV>Cinemark Downtown<A>there are 2 theaters near you, the AMC Holiday Theater and Cinemark Downtown. Did you know which movie you'd like to see?<U>funny one please<PN>find_movies<PAN>location<PAV>spring hills kansas<PR>find_movies<PRAN>name.movie<PRAV>Not My Problem<PRAV>Family Jewels<PN>get_movie_attribute<PAN>name.movie<PAV>Not My Problem<PAN>attribute<PAV>name.genre<PR>get_movie_attribute<PRAN>name.genre<PRAV>comedy<PN>get_movie_attribute<PAN>name.movie<PAV>Not My Problem<PAN>attribute<PAV>name.person<PR>get_movie_attribute<PRAN>name.person<PRAV>Matt Damon<PN>get_movie_attribute<PAN>name.movie<PAV>Not My Problem<PAN>attribute<PAV>name.person<PR>get_movie_attribute<PRAN>name.person<PRAV>Noah Schnapp<PN>get_movie_attribute<PAN>name.movie<PAV>Family Jewels<PAN>attribute<PAV>name.genre<PR>get_movie_attribute<PRAN>name.genre<PRAV>romantic comedy<PN>get_movie_attribute<PAN>name.movie<PAV>Family Jewels<PAN>attribute<PAV>name.person<PR>get_movie_attribute<PRAN>name.person<PRAV>Melissa McCarthy<PN>get_movie_attribute<PAN>name.movie<PAV>Family Jewels<PAN>attribute<PAV>name.person<PR>get_movie_attribute<PRAN>name.person<PRAV>Ryan Reynolds<A>There's the comedy film called Not My Problem starring Matt Damon and Noah Schnapp. There's also a romantic comedy called Family Jewels starring Melissa McCarthy and Ryan Reynolds.<U>what ratings are there?<PN>get_movie_attribute<PAN>name.movie<PAV>Not My Problem<PAN>attribute<PAV>rating.movie<PR>get_movie_attribute<PRAN>rating.movie<PRAV>rated PG-13<PN>get_movie_attribute<PAN>name.movie<PAV>Family Jewels<PAN>attribute<PAV>rating.movie", 'conversation_id': 'dlg-d1f52e7e-c34c-4e85-b406-85ed138b5068', 'gem_id': 'Taskmaster-train-0', 'references': ['Not My Problem is rated PG-13 and Family Jewels is rated R.'], 'target': 'Not My Problem is rated PG-13 and Family Jewels is rated R.'}数据拆分
- 训练:187182个示例 - 开发:23406个示例 - 测试:23316个示例
拆分标准NA
NA
有意义的对话生成
类似的数据集是
独特的语言覆盖范围否
与其他GEM数据集的差异NA
数据集衡量的能力NA
是
GEM的修改其他
修改详细信息gem_id字段已添加到3个数据拆分中
还有其他拆分吗?否
https://github.com/google-research-datasets/Taskmaster/tree/master/TM-3-2020
专业术语NA
BLEU:60
指标BLEU
建议的评估方式自动评估
是否可用先前的结果?是
其他评估方法NA
相关的先前结果NA
NA
交际目标一个包含23,789个标注对话的电影订票对话数据集。
来自不同来源吗?否
众包
众包在哪里进行?参与性实验
语言生成者NA
涵盖的主题订票
数据验证未验证
数据是否经过筛选?未筛选
无
注释服务?否
否
使用数据的理由NA
无PII
对于没有PII的理由基于不包含个人信息的订票信息
否
否
否
不确定
语言生成者是否代表该语言?NA
NA
开放许可证 - 允许商业使用
语言数据的版权限制公共领域
NA
不适合的应用场景NA
不推荐使用的用例NA