数据集:

GEM/CrossWOZ

任务:

对话

语言:

zh

计算机处理:

unknown

语言创建人:

unknown

批注创建人:

none

源数据集:

original

许可:

apache-2.0
英文

GEM/CrossWOZ 数据集卡片

主数据卡的链接

您可以在此找到主要的数据卡 GEM Website .

数据集概述

CrossWOZ 是一个中文多领域任务导向对话数据集。它包含了6,000个对话会话和102,000个句子,涵盖了酒店、餐厅、景点、地铁和出租车等5个领域。大约60%的对话具有跨领域用户目标,这有利于领域间的依赖性,并鼓励在对话中自然过渡领域。

您可以通过以下方式加载数据集:

import datasets
data = datasets.load_dataset('GEM/CrossWOZ')

数据加载程序可以在此处找到 here

网站

Github

论文

ACL Anthology

作者

清华大学CoAI小组的朱琦,黄凯力,张铮,朱小燕和黄民烈

数据集概述

数据及其文档的获取途径

网页

Github

下载

Github

论文

ACL Anthology

BibTex
@article{zhu-etal-2020-crosswoz,
    title = "{C}ross{WOZ}: A Large-Scale {C}hinese Cross-Domain Task-Oriented Dialogue Dataset",
    author = "Zhu, Qi  and
      Huang, Kaili  and
      Zhang, Zheng  and
      Zhu, Xiaoyan  and
      Huang, Minlie",
    journal = "Transactions of the Association for Computational Linguistics",
    volume = "8",
    year = "2020",
    url = "https://aclanthology.org/2020.tacl-1.19",
    doi = "10.1162/tacl_a_00314",
    pages = "281--295",
    abstract = "To advance multi-domain (cross-domain) dialogue modeling as well as alleviate the shortage of Chinese task-oriented datasets, we propose CrossWOZ, the first large-scale Chinese Cross-Domain Wizard-of-Oz task-oriented dataset. It contains 6K dialogue sessions and 102K utterances for 5 domains, including hotel, restaurant, attraction, metro, and taxi. Moreover, the corpus contains rich annotation of dialogue states and dialogue acts on both user and system sides. About 60{\%} of the dialogues have cross-domain user goals that favor inter-domain dependency and encourage natural transition across domains in conversation. We also provide a user simulator and several benchmark models for pipelined task-oriented dialogue systems, which will facilitate researchers to compare and evaluate their models on this corpus. The large size and rich annotation of CrossWOZ make it suitable to investigate a variety of tasks in cross-domain dialogue modeling, such as dialogue state tracking, policy learning, user simulation, etc.",
}
联系人姓名

朱琦

联系人电子邮箱

zhuq96@gmail.com

有排行榜吗?

语言和预期用途

多语言的?

支持的语言

汉语

许可协议

Apache许可证2.0

预期用途

CrossWOZ 是第一个规模较大的中文跨领域任务型对话数据集。它包含了酒店、餐厅、景点、地铁和出租车等5个领域的6,000个对话会话和102,000个句子。此外,该语料库在用户和系统两方面都包含有关对话状态和对话行为的丰富注释。我们还提供了用户模拟器和多个基准模型,用于流水线任务导向型对话系统,这将有助于研究人员在该语料库上比较和评估他们的模型。

主要任务

对话响应生成

交流目标

根据对话上下文和数据库搜索结果生成响应。

致谢

组织类型

学术组织

组织

清华大学

数据集创作者

清华大学CoAI小组的朱琦,黄凯力,张铮,朱小燕和黄民烈

资助

中国国家自然科学基金会,中国国家重点研究与发展计划

谁将数据集添加到GEM中?

朱琦(清华大学)

数据集结构

数据字段
  • gem_id (字符串):GEM-CrossWOZ-{split}-{id}
  • dialog_id (字符串):对话ID
  • sys_id (字符串):系统注释员ID
  • usr_id (字符串):用户注释员ID
  • type (字符串):对话类型
  • task description (字符串列表):用户目标的自然语言描述
  • goal (元组列表),包括:
    • 子目标ID (字符串)
    • 领域名称 (字符串)
    • 插槽名称 (字符串)
    • 如果被填充,则为约束,否则为要求 (字符串)
    • 在前几轮中是否提到过 (字符串)
  • messages (字典列表):对话轮次。每个轮次包含:
    • content (字符串):话语
    • role (字符串):用户或系统
    • dialog_act (元组列表),包括:
      • 领域 (字符串)
      • 意图 (字符串)
      • 插槽 (字符串)
      • 值 (字符串)
    • user_state (元组列表):与"goal"具有相同格式,可以视为动态目标
    • sys_state_init (字典):发出的第一个数据库查询,忠实记录用户约束条件。如果系统找不到与之匹配的结果,他/她可能会手动放宽约束条件并多次搜索数据库。
      • 领域 (字典):插槽(字符串)-值(字符串)对
      • selectedResults (字符串列表):将在此轮中使用的数据库搜索结果。
    • sys_state (字典):发出的最后一个数据库查询,记录了系统在此轮中使用的数据库。与sys_state_init的格式相同。请注意,这可能无法满足所有用户约束条件。
  • final_goal (元组列表):对话结束时的用户状态/目标。与"goal"具有相同格式。
示例示例
{'dialog_id': '2303',
 'final_goal': [['1', '餐馆', '人均消费', '50-100元', 'True'],
  ['1', '餐馆', '推荐菜', "['美食街']", 'True'],
  ['1', '餐馆', '名称', '鲜鱼口老字号美食街', 'True'],
  ['1', '餐馆', '营业时间', '周一至周日 10:00-22:00', 'True'],
  ['1', '餐馆', '周边景点', "['天安门广场', '前门大街', '恭王府', '故宫']", 'True'],
  ['2', '景点', '名称', '故宫', 'True'],
  ['2', '景点', '评分', '4.5分以上', 'True'],
  ['2', '景点', '地址', '北京市东城区景山前街4号', 'True'],
  ['2', '景点', '电话', '010-85007938', 'True'],
  ['3', '酒店', '名称', '桔子水晶酒店(北京安贞店)', 'True'],
  ['3', '酒店', '电话', '010-84273030', 'True']],
 'gem_id': 'GEM-CrossWOZ-test-0',
 'goal': [['1', '餐馆', '人均消费', '50-100元', 'False'],
  ['1', '餐馆', '推荐菜', "['美食街']", 'False'],
  ['1', '餐馆', '名称', '', 'False'],
  ['1', '餐馆', '营业时间', '', 'False'],
  ['1', '餐馆', '周边景点', '[]', 'False'],
  ['2', '景点', '名称', '出现在id=1的周边景点里', 'False'],
  ['2', '景点', '评分', '4.5分以上', 'False'],
  ['2', '景点', '地址', '', 'False'],
  ['2', '景点', '电话', '', 'False'],
  ['3', '酒店', '名称', '桔子水晶酒店(北京安贞店)', 'False'],
  ['3', '酒店', '电话', '', 'False']],
 'messages': {'content': ['你好,我想吃美食街,帮我推荐一个人均消费在50-100元的餐馆,谢谢。',
   '为您推荐鲜鱼口老字号美食街,人均消费75元,有您想吃的美食街哦。',
   '营业时间是什么时间?',
   '周一至周日 10:00-22:00。',
   '他家周边有什么景点吗?',
   '有故宫, 前门大街, 恭王府, 天安门广场。',
   '哦,我想在这些附近景点里找一个4.5分以上的,有吗?',
   '故宫就是哦,4.7分。',
   '好的,电话和地址告诉我一下。',
   '010-85007938;北京市东城区景山前街4号。',
   '好的,麻烦你帮我查一下桔子水晶酒店(北京安贞店)电话呗。',
   '010-84273030。',
   '好的,收到,谢谢你!',
   '不客气。'],
  'dialog_act': [[['General', 'greet', 'none', 'none'],
    ['General', 'thank', 'none', 'none'],
    ['Inform', '餐馆', '人均消费', '50-100元'],
    ['Inform', '餐馆', '推荐菜', '美食街'],
    ['Request', '餐馆', '名称', '']],
   [['Inform', '餐馆', '人均消费', '75元'], ['Inform', '餐馆', '名称', '鲜鱼口老字号美食街']],
   [['Request', '餐馆', '营业时间', '']],
   [['Inform', '餐馆', '营业时间', '周一至周日 10:00-22:00']],
   [['Request', '餐馆', '周边景点', '']],
   [['Inform', '餐馆', '周边景点', '前门大街'],
    ['Inform', '餐馆', '周边景点', '天安门广场'],
    ['Inform', '餐馆', '周边景点', '恭王府'],
    ['Inform', '餐馆', '周边景点', '故宫']],
   [['Inform', '景点', '评分', '4.5分以上'], ['Select', '景点', '源领域', '餐馆']],
   [['Inform', '景点', '名称', '故宫'], ['Inform', '景点', '评分', '4.7分']],
   [['Request', '景点', '地址', ''], ['Request', '景点', '电话', '']],
   [['Inform', '景点', '地址', '北京市东城区景山前街4号'],
    ['Inform', '景点', '电话', '010-85007938']],
   [['Inform', '酒店', '名称', '桔子水晶酒店(北京安贞店)'], ['Request', '酒店', '电话', '']],
   [['Inform', '酒店', '电话', '010-84273030']],
   [['General', 'thank', 'none', 'none']],
   [['General', 'welcome', 'none', 'none']]],
  'role': ['usr',
   'sys',
   'usr',
   'sys',
   'usr',
   'sys',
   'usr',
   'sys',
   'usr',
   'sys',
   'usr',
   'sys',
   'usr',
   'sys'],
  'sys_state': [{'出租': {'selectedResults': [], '出发地': '', '目的地': ''},
    '地铁': {'selectedResults': [], '出发地': '', '目的地': ''},
    '景点': {'selectedResults': [],
     '名称': '',
     '周边景点': '',
     '周边酒店': '',
     '周边餐馆': '',
     '游玩时间': '',
     '评分': '',
     '门票': ''},
    '酒店': {'selectedResults': [],
     '价格': '',
     '名称': '',
     '周边景点': '',
     '周边酒店': '',
     '周边餐馆': '',
     '评分': '',
     '酒店类型': '',
     '酒店设施': ''},
    '餐馆': {'selectedResults': [],
     '人均消费': '',
     '名称': '',
     '周边景点': '',
     '周边酒店': '',
     '周边餐馆': '',
     '推荐菜': '',
     '评分': ''}},
   {'出租': {'selectedResults': [], '出发地': '', '目的地': ''},
    '地铁': {'selectedResults': [], '出发地': '', '目的地': ''},
    '景点': {'selectedResults': [],
     '名称': '',
     '周边景点': '',
     '周边酒店': '',
     '周边餐馆': '',
     '游玩时间': '',
     '评分': '',
     '门票': ''},
    '酒店': {'selectedResults': [],
     '价格': '',
     '名称': '',
     '周边景点': '',
     '周边酒店': '',
     '周边餐馆': '',
     '评分': '',
     '酒店类型': '',
     '酒店设施': ''},
    '餐馆': {'selectedResults': ['鲜鱼口老字号美食街'],
     '人均消费': '50-100元',
     '名称': '',
     '周边景点': '',
     '周边酒店': '',
     '周边餐馆': '',
     '推荐菜': '美食街',
     '评分': ''}},
   {'出租': {'selectedResults': [], '出发地': '', '目的地': ''},
    '地铁': {'selectedResults': [], '出发地': '', '目的地': ''},
    '景点': {'selectedResults': [],
     '名称': '',
     '周边景点': '',
     '周边酒店': '',
     '周边餐馆': '',
     '游玩时间': '',
     '评分': '',
     '门票': ''},
    '酒店': {'selectedResults': [],
     '价格': '',
     '名称': '',
     '周边景点': '',
     '周边酒店': '',
     '周边餐馆': '',
     '评分': '',
     '酒店类型': '',
     '酒店设施': ''},
    '餐馆': {'selectedResults': [],
     '人均消费': '',
     '名称': '',
     '周边景点': '',
     '周边酒店': '',
     '周边餐馆': '',
     '推荐菜': '',
     '评分': ''}},
   {'出租': {'selectedResults': [], '出发地': '', '目的地': ''},
    '地铁': {'selectedResults': [], '出发地': '', '目的地': ''},
    '景点': {'selectedResults': [],
     '名称': '',
     '周边景点': '',
     '周边酒店': '',
     '周边餐馆': '',
     '游玩时间': '',
     '评分': '',
     '门票': ''},
    '酒店': {'selectedResults': [],
     '价格': '',
     '名称': '',
     '周边景点': '',
     '周边酒店': '',
     '周边餐馆': '',
     '评分': '',
     '酒店类型': '',
     '酒店设施': ''},
    '餐馆': {'selectedResults': ['鲜鱼口老字号美食街'],
     '人均消费': '50-100元',
     '名称': '',
     '周边景点': '',
     '周边酒店': '',
     '周边餐馆': '',
     '推荐菜': '美食街',
     '评分': ''}},
   {'出租': {'selectedResults': [], '出发地': '', '目的地': ''},
    '地铁': {'selectedResults': [], '出发地': '', '目的地': ''},
    '景点': {'selectedResults': [],
     '名称': '',
     '周边景点': '',
     '周边酒店': '',
     '周边餐馆': '',
     '游玩时间': '',
     '评分': '',
     '门票': ''},
    '酒店': {'selectedResults': [],
     '价格': '',
     '名称': '',
     '周边景点': '',
     '周边酒店': '',
     '周边餐馆': '',
     '评分': '',
     '酒店类型': '',
     '酒店设施': ''},
    '餐馆': {'selectedResults': [],
     '人均消费': '',
     '名称': '',
     '周边景点': '',
     '周边酒店': '',
     '周边餐馆': '',
     '推荐菜': '',
     '评分': ''}},
   {'出租': {'selectedResults': [], '出发地': '', '目的地': ''},
    '地铁': {'selectedResults': [], '出发地': '', '目的地': ''},
    '景点': {'selectedResults': [],
     '名称': '',
     '周边景点': '',
     '周边酒店': '',
     '周边餐馆': '',
     '游玩时间': '',
     '评分': '',
     '门票': ''},
    '酒店': {'selectedResults': [],
     '价格': '',
     '名称': '',
     '周边景点': '',
     '周边酒店': '',
     '周边餐馆': '',
     '评分': '',
     '酒店类型': '',
     '酒店设施': ''},
    '餐馆': {'selectedResults': ['鲜鱼口老字号美食街'],
     '人均消费': '50-100元',
     '名称': '',
     '周边景点': '',
     '周边酒店': '',
     '周边餐馆': '',
     '推荐菜': '美食街',
     '评分': ''}},
   {'出租': {'selectedResults': [], '出发地': '', '目的地': ''},
    '地铁': {'selectedResults': [], '出发地': '', '目的地': ''},
    '景点': {'selectedResults': [],
     '名称': '',
     '周边景点': '',
     '周边酒店': '',
     '周边餐馆': '',
     '游玩时间': '',
     '评分': '',
     '门票': ''},
    '酒店': {'selectedResults': [],
     '价格': '',
     '名称': '',
     '周边景点': '',
     '周边酒店': '',
     '周边餐馆': '',
     '评分': '',
     '酒店类型': '',
     '酒店设施': ''},
    '餐馆': {'selectedResults': [],
     '人均消费': '',
     '名称': '',
     '周边景点': '',
     '周边酒店': '',
     '周边餐馆': '',
     '推荐菜': '',
     '评分': ''}},
   {'出租': {'selectedResults': [], '出发地': '', '目的地': ''},
    '地铁': {'selectedResults': [], '出发地': '', '目的地': ''},
    '景点': {'selectedResults': ['故宫'],
     '名称': '故宫',
     '周边景点': '',
     '周边酒店': '',
     '周边餐馆': '',
     '游玩时间': '',
     '评分': '',
     '门票': ''},
    '酒店': {'selectedResults': [],
     '价格': '',
     '名称': '',
     '周边景点': '',
     '周边酒店': '',
     '周边餐馆': '',
     '评分': '',
     '酒店类型': '',
     '酒店设施': ''},
    '餐馆': {'selectedResults': [],
     '人均消费': '50-100元',
     '名称': '',
     '周边景点': '',
     '周边酒店': '',
     '周边餐馆': '',
     '推荐菜': '美食街',
     '评分': ''}},
   {'出租': {'selectedResults': [], '出发地': '', '目的地': ''},
    '地铁': {'selectedResults': [], '出发地': '', '目的地': ''},
    '景点': {'selectedResults': [],
     '名称': '',
     '周边景点': '',
     '周边酒店': '',
     '周边餐馆': '',
     '游玩时间': '',
     '评分': '',
     '门票': ''},
    '酒店': {'selectedResults': [],
     '价格': '',
     '名称': '',
     '周边景点': '',
     '周边酒店': '',
     '周边餐馆': '',
     '评分': '',
     '酒店类型': '',
     '酒店设施': ''},
    '餐馆': {'selectedResults': [],
     '人均消费': '',
     '名称': '',
     '周边景点': '',
     '周边酒店': '',
     '周边餐馆': '',
     '推荐菜': '',
     '评分': ''}},
   {'出租': {'selectedResults': [], '出发地': '', '目的地': ''},
    '地铁': {'selectedResults': [], '出发地': '', '目的地': ''},
    '景点': {'selectedResults': ['故宫'],
     '名称': '故宫',
     '周边景点': '',
     '周边酒店': '',
     '周边餐馆': '',
     '游玩时间': '',
     '评分': '',
     '门票': ''},
    '酒店': {'selectedResults': [],
     '价格': '',
     '名称': '',
     '周边景点': '',
     '周边酒店': '',
     '周边餐馆': '',
     '评分': '',
     '酒店类型': '',
     '酒店设施': ''},
    '餐馆': {'selectedResults': [],
     '人均消费': '50-100元',
     '名称': '',
     '周边景点': '',
     '周边酒店': '',
     '周边餐馆': '',
     '推荐菜': '美食街',
     '评分': ''}},
   {'出租': {'selectedResults': [], '出发地': '', '目的地': ''},
    '地铁': {'selectedResults': [], '出发地': '', '目的地': ''},
    '景点': {'selectedResults': [],
     '名称': '',
     '周边景点': '',
     '周边酒店': '',
     '周边餐馆': '',
     '游玩时间': '',
     '评分': '',
     '门票': ''},
    '酒店': {'selectedResults': [],
     '价格': '',
     '名称': '',
     '周边景点': '',
     '周边酒店': '',
     '周边餐馆': '',
     '评分': '',
     '酒店类型': '',
     '酒店设施': ''},
    '餐馆': {'selectedResults': [],
     '人均消费': '',
     '名称': '',
     '周边景点': '',
     '周边酒店': '',
     '周边餐馆': '',
     '推荐菜': '',
     '评分': ''}},
   {'出租': {'selectedResults': [], '出发地': '', '目的地': ''},
    '地铁': {'selectedResults': [], '出发地': '', '目的地': ''},
    '景点': {'selectedResults': [],
     '名称': '故宫',
     '周边景点': '',
     '周边酒店': '',
     '周边餐馆': '',
     '游玩时间': '',
     '评分': '',
     '门票': ''},
    '酒店': {'selectedResults': ['桔子水晶酒店(北京安贞店)'],
     '价格': '',
     '名称': '桔子水晶酒店(北京安贞店)',
     '周边景点': '',
     '周边酒店': '',
     '周边餐馆': '',
     '评分': '',
     '酒店类型': '',
     '酒店设施': ''},
    '餐馆': {'selectedResults': [],
     '人均消费': '50-100元',
     '名称': '',
     '周边景点': '',
     '周边酒店': '',
     '周边餐馆': '',
     '推荐菜': '美食街',
     '评分': ''}},
   {'出租': {'selectedResults': [], '出发地': '', '目的地': ''},
    '地铁': {'selectedResults': [], '出发地': '', '目的地': ''},
    '景点': {'selectedResults': [],
     '名称': '',
     '周边景点': '',
     '周边酒店': '',
     '周边餐馆': '',
     '游玩时间': '',
     '评分': '',
     '门票': ''},
    '酒店': {'selectedResults': [],
     '价格': '',
     '名称': '',
     '周边景点': '',
     '周边酒店': '',
     '周边餐馆': '',
     '评分': '',
     '酒店类型': '',
     '酒店设施': ''},
    '餐馆': {'selectedResults': [],
     '人均消费': '',
     '名称': '',
     '周边景点': '',
     '周边酒店': '',
     '周边餐馆': '',
     '推荐菜': '',
     '评分': ''}},
   {'出租': {'selectedResults': [], '出发地': '', '目的地': ''},
    '地铁': {'selectedResults': [], '出发地': '', '目的地': ''},
    '景点': {'selectedResults': [],
     '名称': '故宫',
     '周边景点': '',
     '周边酒店': '',
     '周边餐馆': '',
     '游玩时间': '',
     '评分': '',
     '门票': ''},
    '酒店': {'selectedResults': [],
     '价格': '',
     '名称': '桔子水晶酒店(北京安贞店)',
     '周边景点': '',
     '周边酒店': '',
     '周边餐馆': '',
     '评分': '',
     '酒店类型': '',
     '酒店设施': ''},
    '餐馆': {'selectedResults': [],
     '人均消费': '50-100元',
     '名称': '',
     '周边景点': '',
     '周边酒店': '',
     '周边餐馆': '',
     '推荐菜': '美食街',
     '评分': ''}}],
  'sys_state_init': [{'出租': {'selectedResults': [], '出发地': '', '目的地': ''},
    '地铁': {'selectedResults': [], '出发地': '', '目的地': ''},
    '景点': {'selectedResults': [],
     '名称': '',
     '周边景点': '',
     '周边酒店': '',
     '周边餐馆': '',
     '游玩时间': '',
     '评分': '',
     '门票': ''},
    '酒店': {'selectedResults': [],
     '价格': '',
     '名称': '',
     '周边景点': '',
     '周边酒店': '',
     '周边餐馆': '',
     '评分': '',
     '酒店类型': '',
     '酒店设施': ''},
    '餐馆': {'selectedResults': [],
     '人均消费': '',
     '名称': '',
     '周边景点': '',
     '周边酒店': '',
     '周边餐馆': '',
     '推荐菜': '',
     '评分': ''}},
   {'出租': {'selectedResults': [], '出发地': '', '目的地': ''},
    '地铁': {'selectedResults': [], '出发地': '', '目的地': ''},
    '景点': {'selectedResults': [],
     '名称': '',
     '周边景点': '',
     '周边酒店': '',
     '周边餐馆': '',
     '游玩时间': '',
     '评分': '',
     '门票': ''},
    '酒店': {'selectedResults': [],
     '价格': '',
     '名称': '',
     '周边景点': '',
     '周边酒店': '',
     '周边餐馆': '',
     '评分': '',
     '酒店类型': '',
     '酒店设施': ''},
    '餐馆': {'selectedResults': ['鲜鱼口老字号美食街'],
     '人均消费': '50-100元',
     '名称': '',
     '周边景点': '',
     '周边酒店': '',
     '周边餐馆': '',
     '推荐菜': '美食街',
     '评分': ''}},
   {'出租': {'selectedResults': [], '出发地': '', '目的地': ''},
    '地铁': {'selectedResults': [], '出发地': '', '目的地': ''},
    '景点': {'selectedResults': [],
     '名称': '',
     '周边景点': '',
     '周边酒店': '',
     '周边餐馆': '',
     '游玩时间': '',
     '评分': '',
     '门票': ''},
    '酒店': {'selectedResults': [],
     '价格': '',
     '名称': '',
     '周边景点': '',
     '周边酒店': '',
     '周边餐馆': '',
     '评分': '',
     '酒店类型': '',
     '酒店设施': ''},
    '餐馆': {'selectedResults': [],
     '人均消费': '',
     '名称': '',
     '周边景点': '',
     '周边酒店': '',
     '周边餐馆': '',
     '推荐菜': '',
     '评分': ''}},
   {'出租': {'selectedResults': [], '出发地': '', '目的地': ''},
    '地铁': {'selectedResults': [], '出发地': '', '目的地': ''},
    '景点': {'selectedResults': [],
     '名称': '',
     '周边景点': '',
     '周边酒店': '',
     '周边餐馆': '',
     '游玩时间': '',
     '评分': '',
     '门票': ''},
    '酒店': {'selectedResults': [],
     '价格': '',
     '名称': '',
     '周边景点': '',
     '周边酒店': '',
     '周边餐馆': '',
     '评分': '',
     '酒店类型': '',
     '酒店设施': ''},
    '餐馆': {'selectedResults': ['鲜鱼口老字号美食街'],
     '人均消费': '50-100元',
     '名称': '',
     '周边景点': '',
     '周边酒店': '',
     '周边餐馆': '',
     '推荐菜': '美食街',
     '评分': ''}},
   {'出租': {'selectedResults': [], '出发地': '', '目的地': ''},
    '地铁': {'selectedResults': [], '出发地': '', '目的地': ''},
    '景点': {'selectedResults': [],
     '名称': '',
     '周边景点': '',
     '周边酒店': '',
     '周边餐馆': '',
     '游玩时间': '',
     '评分': '',
     '门票': ''},
    '酒店': {'selectedResults': [],
     '价格': '',
     '名称': '',
     '周边景点': '',
     '周边酒店': '',
     '周边餐馆': '',
     '评分': '',
     '酒店类型': '',
     '酒店设施': ''},
    '餐馆': {'selectedResults': [],
     '人均消费': '',
     '名称': '',
     '周边景点': '',
     '周边酒店': '',
     '周边餐馆': '',
     '推荐菜': '',
     '评分': ''}},
   {'出租': {'selectedResults': [], '出发地': '', '目的地': ''},
    '地铁': {'selectedResults': [], '出发地': '', '目的地': ''},
    '景点': {'selectedResults': [],
     '名称': '',
     '周边景点': '',
     '周边酒店': '',
     '周边餐馆': '',
     '游玩时间': '',
     '评分': '',
     '门票': ''},
    '酒店': {'selectedResults': [],
     '价格': '',
     '名称': '',
     '周边景点': '',
     '周边酒店': '',
     '周边餐馆': '',
     '评分': '',
     '酒店类型': '',
     '酒店设施': ''},
    '餐馆': {'selectedResults': ['鲜鱼口老字号美食街'],
     '人均消费': '50-100元',
     '名称': '',
     '周边景点': '',
     '周边酒店': '',
     '周边餐馆': '',
     '推荐菜': '美食街',
     '评分': ''}},
   {'出租': {'selectedResults': [], '出发地': '', '目的地': ''},
    '地铁': {'selectedResults': [], '出发地': '', '目的地': ''},
    '景点': {'selectedResults': [],
     '名称': '',
     '周边景点': '',
     '周边酒店': '',
     '周边餐馆': '',
     '游玩时间': '',
     '评分': '',
     '门票': ''},
    '酒店': {'selectedResults': [],
     '价格': '',
     '名称': '',
     '周边景点': '',
     '周边酒店': '',
     '周边餐馆': '',
     '评分': '',
     '酒店类型': '',
     '酒店设施': ''},
    '餐馆': {'selectedResults': [],
     '人均消费': '',
     '名称': '',
     '周边景点': '',
     '周边酒店': '',
     '周边餐馆': '',
     '推荐菜': '',
     '评分': ''}},
   {'出租': {'selectedResults': [], '出发地': '', '目的地': ''},
    '地铁': {'selectedResults': [], '出发地': '', '目的地': ''},
    '景点': {'selectedResults': ['故宫'],
     '名称': '故宫',
     '周边景点': '',
     '周边酒店': '',
     '周边餐馆': '',
     '游玩时间': '',
     '评分': '',
     '门票': ''},
    '酒店': {'selectedResults': [],
     '价格': '',
     '名称': '',
     '周边景点': '',
     '周边酒店': '',
     '周边餐馆': '',
     '评分': '',
     '酒店类型': '',
     '酒店设施': ''},
    '餐馆': {'selectedResults': ['鲜鱼口老字号美食街'],
     '人均消费': '50-100元',
     '名称': '',
     '周边景点': '',
     '周边酒店': '',
     '周边餐馆': '',
     '推荐菜': '美食街',
     '评分': ''}},
   {'出租': {'selectedResults': [], '出发地': '', '目的地': ''},
    '地铁': {'selectedResults': [], '出发地': '', '目的地': ''},
    '景点': {'selectedResults': [],
     '名称': '',
     '周边景点': '',
     '周边酒店': '',
     '周边餐馆': '',
     '游玩时间': '',
     '评分': '',
     '门票': ''},
    '酒店': {'selectedResults': [],
     '价格': '',
     '名称': '',
     '周边景点': '',
     '周边酒店': '',
     '周边餐馆': '',
     '评分': '',
     '酒店类型': '',
     '酒店设施': ''},
    '餐馆': {'selectedResults': [],
     '人均消费': '',
     '名称': '',
     '周边景点': '',
     '周边酒店': '',
     '周边餐馆': '',
     '推荐菜': '',
     '评分': ''}},
   {'出租': {'selectedResults': [], '出发地': '', '目的地': ''},
    '地铁': {'selectedResults': [], '出发地': '', '目的地': ''},
    '景点': {'selectedResults': ['故宫'],
     '名称': '故宫',
     '周边景点': '',
     '周边酒店': '',
     '周边餐馆': '',
     '游玩时间': '',
     '评分': '',
     '门票': ''},
    '酒店': {'selectedResults': [],
     '价格': '',
     '名称': '',
     '周边景点': '',
     '周边酒店': '',
     '周边餐馆': '',
     '评分': '',
     '酒店类型': '',
     '酒店设施': ''},
    '餐馆': {'selectedResults': [],
     '人均消费': '50-100元',
     '名称': '',
     '周边景点': '',
     '周边酒店': '',
     '周边餐馆': '',
     '推荐菜': '美食街',
     '评分': ''}},
   {'出租': {'selectedResults': [], '出发地': '', '目的地': ''},
    '地铁': {'selectedResults': [], '出发地': '', '目的地': ''},
    '景点': {'selectedResults': [],
     '名称': '',
     '周边景点': '',
     '周边酒店': '',
     '周边餐馆': '',
     '游玩时间': '',
     '评分': '',
     '门票': ''},
    '酒店': {'selectedResults': [],
     '价格': '',
     '名称': '',
     '周边景点': '',
     '周边酒店': '',
     '周边餐馆': '',
     '评分': '',
     '酒店类型': '',
     '酒店设施': ''},
    '餐馆': {'selectedResults': [],
     '人均消费': '',
     '名称': '',
     '周边景点': '',
     '周边酒店': '',
     '周边餐馆': '',
     '推荐菜': '',
     '评分': ''}},
   {'出租': {'selectedResults': [], '出发地': '', '目的地': ''},
    '地铁': {'selectedResults': [], '出发地': '', '目的地': ''},
    '景点': {'selectedResults': ['故宫'],
     '名称': '故宫',
     '周边景点': '',
     '周边酒店': '',
     '周边餐馆': '',
     '游玩时间': '',
     '评分': '',
     '门票': ''},
    '酒店': {'selectedResults': ['桔子水晶酒店(北京安贞店)'],
     '价格': '',
     '名称': '桔子水晶酒店(北京安贞店)',
     '周边景点': '',
     '周边酒店': '',
     '周边餐馆': '',
     '评分': '',
     '酒店类型': '',
     '酒店设施': ''},
    '餐馆': {'selectedResults': [],
     '人均消费': '50-100元',
     '名称': '',
     '周边景点': '',
     '周边酒店': '',
     '周边餐馆': '',
     '推荐菜': '美食街',
     '评分': ''}},
   {'出租': {'selectedResults': [], '出发地': '', '目的地': ''},
    '地铁': {'selectedResults': [], '出发地': '', '目的地': ''},
    '景点': {'selectedResults': [],
     '名称': '',
     '周边景点': '',
     '周边酒店': '',
     '周边餐馆': '',
     '游玩时间': '',
     '评分': '',
     '门票': ''},
    '酒店': {'selectedResults': [],
     '价格': '',
     '名称': '',
     '周边景点': '',
     '周边酒店': '',
     '周边餐馆': '',
     '评分': '',
     '酒店类型': '',
     '酒店设施': ''},
    '餐馆': {'selectedResults': [],
     '人均消费': '',
     '名称': '',
     '周边景点': '',
     '周边酒店': '',
     '周边餐馆': '',
     '推荐菜': '',
     '评分': ''}},
   {'出租': {'selectedResults': [], '出发地': '', '目的地': ''},
    '地铁': {'selectedResults': [], '出发地': '', '目的地': ''},
    '景点': {'selectedResults': [],
     '名称': '故宫',
     '周边景点': '',
     '周边酒店': '',
     '周边餐馆': '',
     '游玩时间': '',
     '评分': '',
     '门票': ''},
    '酒店': {'selectedResults': ['桔子水晶酒店(北京安贞店)'],
     '价格': '',
     '名称': '桔子水晶酒店(北京安贞店)',
     '周边景点': '',
     '周边酒店': '',
     '周边餐馆': '',
     '评分': '',
     '酒店类型': '',
     '酒店设施': ''},
    '餐馆': {'selectedResults': [],
     '人均消费': '50-100元',
     '名称': '',
     '周边景点': '',
     '周边酒店': '',
     '周边餐馆': '',
     '推荐菜': '美食街',
     '评分': ''}}],
  'user_state': [[['1', '餐馆', '人均消费', '50-100元', 'True'],
    ['1', '餐馆', '推荐菜', "['美食街']", 'True'],
    ['1', '餐馆', '名称', '', 'True'],
    ['1', '餐馆', '营业时间', '', 'False'],
    ['1', '餐馆', '周边景点', '[]', 'False'],
    ['2', '景点', '名称', '出现在id=1的周边景点里', 'False'],
    ['2', '景点', '评分', '4.5分以上', 'False'],
    ['2', '景点', '地址', '', 'False'],
    ['2', '景点', '电话', '', 'False'],
    ['3', '酒店', '名称', '桔子水晶酒店(北京安贞店)', 'False'],
    ['3', '酒店', '电话', '', 'False']],
   [],
   [['1', '餐馆', '人均消费', '50-100元', 'True'],
    ['1', '餐馆', '推荐菜', "['美食街']", 'True'],
    ['1', '餐馆', '名称', '鲜鱼口老字号美食街', 'True'],
    ['1', '餐馆', '营业时间', '', 'True'],
    ['1', '餐馆', '周边景点', '[]', 'False'],
    ['2', '景点', '名称', '出现在id=1的周边景点里', 'False'],
    ['2', '景点', '评分', '4.5分以上', 'False'],
    ['2', '景点', '地址', '', 'False'],
    ['2', '景点', '电话', '', 'False'],
    ['3', '酒店', '名称', '桔子水晶酒店(北京安贞店)', 'False'],
    ['3', '酒店', '电话', '', 'False']],
   [],
   [['1', '餐馆', '人均消费', '50-100元', 'True'],
    ['1', '餐馆', '推荐菜', "['美食街']", 'True'],
    ['1', '餐馆', '名称', '鲜鱼口老字号美食街', 'True'],
    ['1', '餐馆', '营业时间', '周一至周日 10:00-22:00', 'True'],
    ['1', '餐馆', '周边景点', '[]', 'True'],
    ['2', '景点', '名称', '出现在id=1的周边景点里', 'False'],
    ['2', '景点', '评分', '4.5分以上', 'False'],
    ['2', '景点', '地址', '', 'False'],
    ['2', '景点', '电话', '', 'False'],
    ['3', '酒店', '名称', '桔子水晶酒店(北京安贞店)', 'False'],
    ['3', '酒店', '电话', '', 'False']],
   [],
   [['1', '餐馆', '人均消费', '50-100元', 'True'],
    ['1', '餐馆', '推荐菜', "['美食街']", 'True'],
    ['1', '餐馆', '名称', '鲜鱼口老字号美食街', 'True'],
    ['1', '餐馆', '营业时间', '周一至周日 10:00-22:00', 'True'],
    ['1', '餐馆', '周边景点', "['天安门广场', '前门大街', '恭王府', '故宫']", 'True'],
    ['2', '景点', '名称', '出现在id=1的周边景点里', 'True'],
    ['2', '景点', '评分', '4.5分以上', 'True'],
    ['2', '景点', '地址', '', 'False'],
    ['2', '景点', '电话', '', 'False'],
    ['3', '酒店', '名称', '桔子水晶酒店(北京安贞店)', 'False'],
    ['3', '酒店', '电话', '', 'False']],
   [],
   [['1', '餐馆', '人均消费', '50-100元', 'True'],
    ['1', '餐馆', '推荐菜', "['美食街']", 'True'],
    ['1', '餐馆', '名称', '鲜鱼口老字号美食街', 'True'],
    ['1', '餐馆', '营业时间', '周一至周日 10:00-22:00', 'True'],
    ['1', '餐馆', '周边景点', "['天安门广场', '前门大街', '恭王府', '故宫']", 'True'],
    ['2', '景点', '名称', '故宫', 'True'],
    ['2', '景点', '评分', '4.5分以上', 'True'],
    ['2', '景点', '地址', '', 'True'],
    ['2', '景点', '电话', '', 'True'],
    ['3', '酒店', '名称', '桔子水晶酒店(北京安贞店)', 'False'],
    ['3', '酒店', '电话', '', 'False']],
   [],
   [['1', '餐馆', '人均消费', '50-100元', 'True'],
    ['1', '餐馆', '推荐菜', "['美食街']", 'True'],
    ['1', '餐馆', '名称', '鲜鱼口老字号美食街', 'True'],
    ['1', '餐馆', '营业时间', '周一至周日 10:00-22:00', 'True'],
    ['1', '餐馆', '周边景点', "['天安门广场', '前门大街', '恭王府', '故宫']", 'True'],
    ['2', '景点', '名称', '故宫', 'True'],
    ['2', '景点', '评分', '4.5分以上', 'True'],
    ['2', '景点', '地址', '北京市东城区景山前街4号', 'True'],
    ['2', '景点', '电话', '010-85007938', 'True'],
    ['3', '酒店', '名称', '桔子水晶酒店(北京安贞店)', 'True'],
    ['3', '酒店', '电话', '', 'True']],
   [],
   [['1', '餐馆', '人均消费', '50-100元', 'True'],
    ['1', '餐馆', '推荐菜', "['美食街']", 'True'],
    ['1', '餐馆', '名称', '鲜鱼口老字号美食街', 'True'],
    ['1', '餐馆', '营业时间', '周一至周日 10:00-22:00', 'True'],
    ['1', '餐馆', '周边景点', "['天安门广场', '前门大街', '恭王府', '故宫']", 'True'],
    ['2', '景点', '名称', '故宫', 'True'],
    ['2', '景点', '评分', '4.5分以上', 'True'],
    ['2', '景点', '地址', '北京市东城区景山前街4号', 'True'],
    ['2', '景点', '电话', '010-85007938', 'True'],
    ['3', '酒店', '名称', '桔子水晶酒店(北京安贞店)', 'True'],
    ['3', '酒店', '电话', '010-84273030', 'True']],
   []]},
 'sys_id': 96,
 'task description': ['你要去一个餐馆(id=1)用餐。你希望餐馆的人均消费是50-100元的。你想吃的菜肴是美食街。你想知道这个餐馆的名称、营业时间、周边景点。',
  '你要去id=1附近的景点(id=2)游玩。你希望景点的评分是4.5分以上。你想知道这个景点的地址、电话。',
  '你要去名叫桔子水晶酒店(北京安贞店)的酒店(id=3)住宿。你想知道这个酒店的电话。'],
 'type': '不独立多领域',
 'usr_id': 97}
数据拆分
Split Train Valid Test
# dialogues 5,012 500 500
# Turns (utterances) 84,692 8,458 8,476
Vocab 12,502 5,202 5,143
Avg. sub-goals 3.24 3.26 3.26
Avg. semantic tuples 14.8 14.9 15.0
Avg. turns 16.9 16.9 17.0
Avg. tokens per turn 16.3 16.3 16.2

GEM中的数据集

加入GEM的原因

为什么将数据集加入到GEM中?

CrossWOZ 是第一个规模较大的中文跨领域Wizard-of-Oz任务型对话数据集。

类似的数据集

是的

独特的语言覆盖范围

与其他GEM数据集的区别

该语料库在用户和系统两方面都包含有关对话状态和对话行为的丰富注释,可用于广泛的任务。

该数据集衡量的能力

对话理解,对话策略学习

GEM特定的策划

是否为GEM适配?

GEM的修改

其他

修改细节

为了适应Hugging Face数据集,我们将用户注释者ID和系统注释者ID分开;我们将目标/用户状态中的数据类型转换为字符串。

是否有其他数据拆分?

开始处理该任务

资源指南

Code

技术术语

根据用户目标的类型,我们将训练集中的对话分为五个类别:

  • S:417个对话在HAR领域中只有一个子目标。
  • M:1573个对话在HAR领域中有多个子目标(2-3个)。然而,这些子目标没有跨领域的可信息化插槽。
  • M+T:691个对话在HAR领域中有多个子目标,以及地铁或出租车领域中至少一个子目标(3-5个子目标)。HAR领域中的子目标没有跨领域的可信息化插槽。
  • CM:1,759个对话在HAR领域中有多个子目标(2-5个),其中包括跨领域的可信息化插槽。
  • CM+T:572个对话在HAR领域中有多个子目标,其中包括跨领域的可信息化插槽,以及地铁或出租车领域中至少一个子目标(3-5个子目标)。

之前的结果

之前的结果

评估模型能力

对话理解,对话策略学习

评估指标

BLEU

提议的评估方法

BLEU评估生成质量。

是否有之前的结果?

其他评估方法

信息比率:黄金响应中有多少实体在生成的响应中出现。

相关的先前结果

在MultiWOZ数据集上的BLEU值。

数据集策划

原始策划

原始策划理由

收集中文的人对人对话。

交流目标

根据对话上下文和数据库搜索结果生成响应。

来自不同来源的信息

语言数据

语言数据的获取方式

众包

众包数据的来源

参与型实验

语言生成者

通过不同的数据点的usr/sys ID来指示创建者。

覆盖的主题

领域:景点、酒店、餐厅、地铁、出租车

数据验证

数据策划者验证

是否筛选数据?

未筛选

结构化注释

附加注释?

注释服务?

同意

是否有同意政策?

同意政策细节

注释者同意将数据集用于研究目的。

其他同意的下游使用

任何

私人身份信息(PII)

是否包含PII?

不太可能

PII类别

通用PII

是否进行PII识别?

无识别

维护

是否有维护计划?

更广泛的社会背景

关于数据集社会影响的先前工作

基于数据的模型的使用

对欠发达社区的影响

是否满足欠发达社区的需求?

关于数据集如何满足需求的详细信息

CrossWOZ 是第一个规模较大的中文跨领域Wizard-of-Oz任务型对话数据集。该语料库在用户和系统两方面都包含有关对话状态和对话行为的丰富注释,可用于广泛的任务。

偏见讨论

是否有记录的社会偏见?

语言生成者是否代表了该语言?

使用数据的考虑事项

PII风险和责任

潜在的PII风险

许可证

数据集是否有版权限制

开放许可 - 允许商业使用

语言数据是否有版权限制

开放许可 - 允许商业使用

已知的技术限制

技术限制

不适合的应用

模型可能无法处理对话中的未知值

不推荐的用例

响应可能多样化,不能用BLEU捕捉到