数据集:

jpcorb20/multidogo

英文

MultiDoGo对话数据集:

摘要 随着虚拟助手的普及,对高质量、大规模、面向目标的对话数据集的需求不断增长。然而,目前公开可用的在这一领域有用的数据集在大小、语言多样性、领域覆盖或注释粒度上存在限制。在本文中,我们提出了一种策略,以便选用和注释大规模目标导向对话数据。我们介绍了MultiDoGO数据集来克服这些限制。MultiDoGO收集了包含六个领域的超过81K个对话,是目前公开可用的最大可比较对话数据集MultiWOZ的8倍以上。这些对话中有超过54K个被注释为意图类别和槽位标签。我们采用了一种Wizard-of-Oz方法,即让众包工作者(“客户”)与训练有素的注释者(“代理”)配对。通过偏见控制数据策划过程,以确保对话流的多样性并遵循可变的对话策略。我们为代理和客户的话语提供了不同类别的标签,以及适用的槽位标签。我们还比较和对比了基于回合和基于句子级别的注释粒度。此外,我们还比较了通过利用专业注释者和众包的注释策划。我们相信我们用于引发和注释这样一个对话数据集的策略可以扩展到未来的多模态和多领域,甚至多语种的情况。为了证明我们所设计的策略的有效性,我们在代理和客户话语的分类以及每个领域的槽位标注上建立了神经基线。

许可信息

社区数据许可协议-宽松,版本1.0。