数据集:

taskmaster2

语言:

en

计算机处理:

monolingual

大小:

1K<n<10K

语言创建人:

crowdsourced

批注创建人:

crowdsourced

源数据集:

original

预印本库:

arxiv:1909.05358

许可:

cc-by-4.0
英文

Taskmaster-2 数据集卡片

数据集简介

Taskmaster 是用于目标导向对话的数据集。Taskmaster-2 数据集包含了7个领域的17,289个对话,包括餐厅、食品订购、电影、酒店、航班、音乐和体育。与 Taskmaster-1 不同,Taskmaster-2 完全由两人对话组成,而不包括书面的“自我对话”。此外,虽然 Taskmaster-1 几乎完全是基于任务的,但 Taskmaster-2 包含了相当数量的搜索和推荐导向的对话。所有此版本中的对话均使用“奥兹巫师”(Wizard of Oz, WOz) 方法创建,其中众包工作者扮演“用户”的角色,训练的呼叫中心操作员扮演“助手”的角色。通过这种方式,用户会相信他们正在与一个使用文本转语音 (TTS) 说话的自动化系统进行交互,而实际上背后是一个真人。因此,用户可以根据自己的选择在自动化界面的上下文中表达自己。

支持的任务和排行榜

[需要更多信息]

语言

数据集使用的语言是英语。

数据集结构

数据实例

典型示例如下所示

{
    "conversation_id": "dlg-0047a087-6a3c-4f27-b0e6-268f53a2e013",
    "instruction_id": "flight-6",
    "utterances": [
        {
            "index": 0,
            "segments": [],
            "speaker": "USER",
            "text": "Hi, I'm looking for a flight. I need to visit a friend."
        },
        {
            "index": 1,
            "segments": [],
            "speaker": "ASSISTANT",
            "text": "Hello, how can I help you?"
        },
        {
            "index": 2,
            "segments": [],
            "speaker": "ASSISTANT",
            "text": "Sure, I can help you with that."
        },
        {
            "index": 3,
            "segments": [],
            "speaker": "ASSISTANT",
            "text": "On what dates?"
        },
        {
            "index": 4,
            "segments": [
                {
                    "annotations": [
                        {
                            "name": "flight_search.date.depart_origin"
                        }
                    ],
                    "end_index": 37,
                    "start_index": 27,
                    "text": "March 20th"
                },
                {
                    "annotations": [
                        {
                            "name": "flight_search.date.return"
                        }
                    ],
                    "end_index": 45,
                    "start_index": 41,
                    "text": "22nd"
                }
            ],
            "speaker": "USER",
            "text": "I'm looking to travel from March 20th to 22nd."
        }
    ]
}

数据字段

数据文件中的每个对话具有以下结构:

  • conversation_id:带有前缀“dlg-”的全局唯一标识符。ID 没有实际意义。
  • utterances:构成对话的话语列表。
  • instruction_id:对话中用户 (以及如适用的话务员) 的说明文件的引用。

每个话语具有以下字段:

  • index:基于0的索引,指示话语在对话中的顺序。
  • speaker:可能是 USER 或 ASSISTANT,表示生成此话语的角色。
  • text:话语的原始文本。在自我对话 (one_person_dialogs) 的情况下,这是由众包工作者编写的。在 WOz 对话的情况下,“ASSISTANT”回合是由人工转录众包工作者的口语录音。“USER”回合是从口语录音中转录的。
  • segments:包含语义注释的各种文本片段的列表。

每个片段具有以下字段:

  • start_index:注释在话语文本中的起始位置。
  • end_index:注释在话语文本中的结束位置。
  • text:已进行注释的原始文本。
  • annotations:此片段的注释详细信息列表。

每个注释具有单个字段:

  • name:注释的名称。

数据拆分

所有配置都没有默认的拆分方式。下表列出了每个配置中的示例数。

Config Train
flights 2481
food-orderings 1050
hotels 2355
movies 3047
music 1602
restaurant-search 3276
sports 3478

数据集创建

策划理由

[需要更多信息]

源数据

[需要更多信息]

初始数据收集和规范化

[需要更多信息]

谁是源语言的生产者?

[需要更多信息]

注释

[需要更多信息]

注释过程

[需要更多信息]

谁是标注者?

[需要更多信息]

个人和敏感信息

[需要更多信息]

数据使用注意事项

数据集的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策划

[需要更多信息]

许可信息

该数据集根据创作共用署名4.0许可进行许可

引用信息

[需要更多信息]

@inproceedings{48484,
title	= {Taskmaster-1: Toward a Realistic and Diverse Dialog Dataset},
author	= {Bill Byrne and Karthik Krishnamoorthi and Chinnadhurai Sankar and Arvind Neelakantan and Daniel Duckworth and Semih Yavuz and Ben Goodrich and Amit Dubey and Kyu-Young Kim and Andy Cedilnik},
year	= {2019}
}

贡献人员

感谢 @patil-suraj 提供此数据集。