数据集:
GEM/schema_guided_dialog
您可以在此处找到主要的数据卡片 GEM Website 。
GEM 版本的该数据集用作响应生成数据集。输入指定了模型需要转化为语言的对话行为。Schema-Guided对话数据集具有挑战性,因为它包含了从酒店和旅行到餐厅的多个领域,以及各种各样的对话行为。还提供了每个对话的上下文。
您可以通过以下方式加载数据集:
可以在此处找到数据加载器 。
网站n/a
论文 作者Abhinav Rastogi, Xiaoxue Zang, Srinivas Sunkara, Raghav Gupta, Pranav Khaitan, Amir Fayazi, Maria Wang and Guan-Lin Chao
[Github]( https://github.com/google-research-datasets/dstc8-schema-guided-dialogue )
论文 BibTex{ @inproceedings{rastogi2020towards, title={Towards scalable multi-domain conversational agents: The schema-guided dialogue dataset}, author={Rastogi, Abhinav and Zang, Xiaoxue and Sunkara, Srinivas and Gupta, Raghav and Khaitan, Pranav}, booktitle={Proceedings of the AAAI Conference on Artificial Intelligence}, volume={34}, number={05}, pages={8689--8696}, year={2020} }联系人姓名
Abhinav Rastogi
联系人邮箱schema-guided-dst@google.com
有排行榜吗?不
不
涵盖的语言英语
哪个语言?语言结构是机器生成的,语言实现是由众包工作者生成的。数据集论文没有提供众包工作者的人口统计信息。
许可证cc-by-sa-4.0: 署名-相同方式共享4.0国际
预期用途Schema-Guided对话(SGD)数据集包含了1.8万个人与虚拟助手之间的多领域任务导向对话,涵盖了从银行和事件到媒体、日历、旅行和天气的17个领域。数据集中只包含英文。SGD数据集为任务导向对话中的许多任务提供了一个具有挑战性的测试平台,包括语言理解、槽填充、对话状态跟踪和响应生成。在创建SGD数据集时,研究人员开发了一个多领域对话模拟器,该模拟器能够在任意组合的API、对话状态和系统动作上生成对话概要。然后,他们使用众包过程将这些概述改写为自然语言表述。这种新颖的众包过程保留了从模拟器获得的所有注释,并且在对话收集后不需要任何额外的注释。
主要任务对话响应生成
交际目标生成目标话语的演讲者的目标是帮助用户完成任务,包括但不限于寻找航班、预订餐厅、搜索附近的事件和电影。
工业
策展组织谷歌
数据集创建者Abhinav Rastogi, Xiaoxue Zang, Srinivas Sunkara, Raghav Gupta, Pranav Khaitan, Amir Fayazi, Maria Wang和Guan-Lin Chao
资助谷歌
谁添加了GEM数据集?Wanyu Du编写了初始数据卡,并且Yacine Jernite编写了数据加载器。Simon Mille使用额外的数据划分更新了数据卡和加载器。Sebastian Gehrmann将数据卡和加载器迁移到v2版本,并扩展了缺失的信息。
每个对话实例都有以下字段:
{'dialogue_id': '1_00000', 'services': ['Restaurants_1'], 'turns': {'frames': [{'actions': [{'act': [6], 'canonical_values': [['FindRestaurants']], 'slot': ['intent'], 'values': [['FindRestaurants']]}], 'service': ['Restaurants_1'], 'service_call': [{'method': '', 'parameters': {'parameter_canonical_value': [], 'parameter_slot_name': []}}], 'service_results': [{'service_results_list': []}], 'slots': [{'exclusive_end': [], 'slot': [], 'start': []}], 'state': [{'active_intent': 'FindRestaurants', 'requested_slots': [], 'slot_values': {'slot_name': [], 'slot_value_list': []}}]}, {'actions': [{'act': [13], 'canonical_values': [[]], 'slot': ['city'], 'values': [[]]}], 'service': ['Restaurants_1'], 'service_call': [{'method': '', 'parameters': {'parameter_canonical_value': [], 'parameter_slot_name': []}}], 'service_results': [{'service_results_list': []}], 'slots': [{'exclusive_end': [], 'slot': [], 'start': []}], 'state': [{'active_intent': '', 'requested_slots': [], 'slot_values': {'slot_name': [], 'slot_value_list': []}}]}, ...,]} 'speaker': [0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1], 'utterance': [ 'I am feeling hungry so I would like to find a place to eat.', 'Do you have a specific which you want the eating place to be located at?', 'I would like for it to be in San Jose.', 'Is there a specific cuisine type you enjoy, such as Mexican, Italian or something else?', 'I usually like eating the American type of food.', 'I see that at 71 Saint Peter there is a good restaurant which is in San Jose.', 'Can you give me the address of this restaurant.', 'If you want to go to this restaurant you can find it at 71 North San Pedro Street.', 'Can you give me the phone number that I can contact them with?', 'If you want to phone them you can at 408-971-8523.', 'Is there some other restaurant which you can suggest?', 'How would you like Bazille restaurant which is situated in San Jose.', 'Do you have another restaurant matching my needs? For example a restaurant which is economical and is located in Palo Alto.', 'I see that 7 restaurants suit to what you requested. Bird Dog seems as a good restaurant and is located in Palo Alto.', 'Alright, that seems good. I would like to make a booking at this restaurant.', 'For which time do you want the booking to be?', 'I will be eating there at 11:30 am so make it for then.', 'Can you please confirm that you want to book a table for 2 at 11:30 am at the Bird Dog restaurant in Palo Alto for today.', 'That suits me well. Can you tell me if they feature live music?', 'Your booking has been made without errors, but unfortunately they do not have live music.', 'Will I be able to find liquor there? Can you give me the address of their location?', 'The restaurant is located at 420 Ramona Street. Unfortunately they do not serve alcohol at the restaurant.', 'I appreciate it very much. That would be all.', 'Have a good time!' ]}数据拆分
该数据集被拆分为包含以下大小的训练集、验证集和测试集:
Train | Validation | Test | |
---|---|---|---|
# of dialogues | 16142 | 2482 | 4201 |
# of turns | 48426 | 7446 | 12603 |
数据通常是i.i.d.拆分的,但有些主题只出现在训练集中,而有些主题只出现在测试集中。例如,领域 Messaging, Payment 和 Train 是仅出现在测试集中的。
此数据集包含了各种各样的对话能力,因此能够评估与其他可比较数据集相似的许多生成能力。其收集方法确保了数据的高多样性和高质量。
类似的数据集是的
独特的语言覆盖范围否
与其他GEM数据集的不同之处领域比其他数据集更加多样。
数据集测试的能力表面实现、组合性。
是的
GEM的修改修改了数据点
修改细节我们将重点放在了对话响应生成的数据集上,因此重新格式化了数据集,将服务代理话语视为要生成的目标,将上一个客户话语和代理话语行为视为输入。我们还重新格式化了对话行为,使其直接符合所描述的格式。
还有其他拆分吗?是的
拆分信息为Schema-Guided对话增加了9个挑战集到GEM评估套件中。
DA number | Frequency English |
---|---|
1 | 5049 |
2 | 2517 |
3 | 1328 |
4 | 469 |
5 | 335 |
6 | 256 |
7 | 46 |
我们还根据对话行为的类型对测试数据进行了拆分,该类型由数据集中的基数表示。
DA type | Frequency English |
---|---|
2 | 1397 |
3 | 983 |
4 | 1027 |
5 | 958 |
9 | 72 |
10 | 1024 |
11 | 1246 |
12 | 500 |
13 | 2078 |
15 | 715 |
泛化性和鲁棒性。
表面实现和组合性。
指标BLEURT,BLEU,ROUGE
提议的评估原始论文关注对话状态预测任务而不是对话响应生成,因此没有提出任何一组指标。
以前的结果是否可用?否
以前的多领域任务导向对话数据集未能充分捕捉虚拟助手领域的真实挑战,因为它们只涵盖了少量的领域,并假设每个领域只有一个静态的本体。SGD数据集的创建旨在涵盖17个领域,其中包括超过1.6K个对话,并且大多数领域中包含多个不同的API,其中许多API具有重叠的功能但具有不同的接口,这反映了常见的真实场景。可用的各种各样的注释可以用于大规模虚拟助手中的意图预测、槽填充、对话状态跟踪、策略模仿学习、语言生成、用户模拟学习等任务。
交际目标生成目标话语的人想帮助用户完成任务,包括但不限于寻找航班、预订餐厅、搜索附近的事件和电影。
是否从不同来源收集?不
机器生成
生成方法链接 语言生成者各种对话概述首先由模拟器生成。对话模拟器通过对话行为使用概率自动机与服务进行交互以生成对话概述。它由两个代理扮演用户和系统的角色,使用指定对话轨迹的概率自动机相互交互。值得注意的是,模拟自动机不包括任何领域特定约束:所有领域特定约束都在架构和情境中编码。
然后,对话改写框架将模拟器生成的概述转换为更自然的对话。用户在对话过程中可能以不同的方式引用对话行为中的槽值,例如,“洛杉矶”可能会用“LA”或“LAX”引用。为了引入槽值的这些自然变化,将不同的槽值替换为随机选择的变体,同时在对话中对槽值保持一致。然后,使用一组手动定义的操作到文本模板,将操作转换为伪自然语言话语,然后将该轮次中的不同操作产生的结果话语连接在一起。
涵盖的主题该数据集涵盖以下领域: Alarm, Banks, Buses, Calendar, Events, Flights, Homes, Hotels, Media, Messaging, Movies, Music, Payment, RentalCars, Restaurants, RideSharing, Services, Train, Travel 和 Weather。领域“Service”包括沙龙、牙医、医生等。“Alarm”、“Messaging”、“Payment”和“Train”领域仅在开发集或测试集中出现以测试对新领域的泛化。
数据验证未经验证
数据是否经过筛选?未筛选
众包
评定人数未知
每个培训示例的评定人数0
每个测试示例的评定人数0
注释服务?未知
注释值通过上述步骤转换的对话被发送给众包工作者以进行更自然的语言改写。一个众包工作者负责将对话的所有话语改写为确保自然性和连贯性。要通过字符串匹配找回插槽的跨度索引,众包工作者被要求完全重复话语中的槽值。
是否有质量控制?无
否
使用数据的理由虽然没有报告政策,但我们假设在数据收集过程中确实有一个政策。
不包含PII信息
为什么没有PII信息SGD数据集不使用身份类别,也不包含敏感数据。
否
没有
不
不
语言生成者是否代表了语言?由于自动生成和众包改写的组合特性,语言可能非常公式化。虽然对于模型部分(即我们可能真的希望自动化代理形成公式化的响应),模拟的客户的输入话语可能不包含英语的整个范围。
开放许可证- 允许商业用途
语言数据的版权限制开放许可证- 允许商业用途
各个领域的对话分布不均匀,其中航班领域有3644个对话,而付款领域只有222个对话。此外,所有对话都是由众包工作者改写的,可能存在具有不同文化背景的众包工作者会呈现出有偏见的意见。
不适用的应用程序由于初始数据是自动生成的,实体名称的覆盖范围必然是有偏的。因此,需要在更真实的环境中评估代理程序。