数据集:

taskmaster1

任务:

文本生成

填充掩码

子任务:

dialogue-modeling

语言:

计算机处理:

monolingual

大小:

1K<n<10K

语言创建人:

crowdsourced

批注创建人:

crowdsourced

源数据集:

original

预印本库:

arxiv:1909.05358

许可:

cc-by-4.0

数据集介绍文件清单

英文

Taskmaster-1 数据集卡片

数据集摘要

Taskmaster-1 是一个面向目标的对话数据集。它包含13,215个基于任务的对话，涵盖六个领域。创建此数据集采用了两种不同的方法，每种方法都具有独特的优势。第一种方法是使用两个人的“假扮人类”（Wizard of Oz，WOz）方式，训练的代理人和众包工作人员进行互动以完成任务；第二种方法是“自我对话”，即由众包工作人员自己撰写整个对话。

支持的任务和排行榜

[需要更多信息]

语言

数据集使用英语。

数据集结构

数据示例

典型的例子如下所示

{
    "conversation_id":"dlg-336c8165-068e-4b4b-803d-18ef0676f668",
    "instruction_id":"restaurant-table-2",
    "utterances":[
      {
        "index":0,
        "segments":[
          
        ],
        "speaker":"USER",
        "text":"Hi, I'm looking for a place that sells spicy wet hotdogs, can you think of any?"
      },
      {
        "index":1,
        "segments":[
          {
            "annotations":[
              {
                "name":"restaurant_reservation.name.restaurant.reject"
              }
            ],
            "end_index":37,
            "start_index":16,
            "text":"Spicy Wet Hotdogs LLC"
          }
        ],
        "speaker":"ASSISTANT",
        "text":"You might enjoy Spicy Wet Hotdogs LLC."
      },
      {
        "index":2,
        "segments":[
          
        ],
        "speaker":"USER",
        "text":"That sounds really good, can you make me a reservation?"
      },
      {
        "index":3,
        "segments":[
          
        ],
        "speaker":"ASSISTANT",
        "text":"Certainly, when would you like a reservation?"
      },
      {
        "index":4,
        "segments":[
          {
            "annotations":[
              {
                "name":"restaurant_reservation.num.guests"
              },
              {
                "name":"restaurant_reservation.num.guests"
              }
            ],
            "end_index":20,
            "start_index":18,
            "text":"50"
          }
        ],
        "speaker":"USER",
        "text":"I have a party of 50 who want a really sloppy dog on Saturday at noon."
      }
    ]
  }

数据字段

数据文件中的每个对话具有以下结构:

conversation_id : 全球唯一标识符，前缀为'dlg-'。该ID没有具体含义。
utterances : 构成对话的话语列表。
instruction_id : 指向包含用户（和如果适用还有代理人）指令的文件的参考。

每个话语具有以下字段:

index : 从0开始的索引，表示话语在对话中的顺序。
speaker : 可以是USER或ASSISTANT，表示该话语是由哪个角色生成的。
text : 话语的原始文本。对于自我对话（one_person_dialogs），该文本为众包工作人员编写。对于WOz对话，'ASSISTANT'回合由训练的代理人撰写，'USER'回合则是通过众包工作人员的口述记录转录而来。
segments : 含有语义注释的各种文本片段的列表。

每个片段具有以下字段:

start_index : 注释在话语文本中起始位置的索引。
end_index : 注释在话语文本中结束位置的索引。
text : 已经注释的原始文本。
annotations : 此片段的注释详细信息列表。

每个注释只有一个字段:

name : 注释名称。

数据拆分

one_person_dialogs

one_person_dialogs 配置中的数据被拆分为 train 、 dev 和 test 。

train	validation	test
N. Instances	6168	770	770

woz_dialogs

woz_dialogs 配置中的数据没有默认的拆分。

train
N. Instances	5507

数据集创建

策划理由

[需要更多信息]

源数据

[需要更多信息]

初始数据收集和规范化

[需要更多信息]

语言的原始产生者是谁?

[需要更多信息]

注释

[需要更多信息]

注释过程

[需要更多信息]

注释员是谁?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据时的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策划人员

[需要更多信息]

许可信息

数据集基于 Creative Commons Attribution 4.0 License 进行许可

引用信息

[需要更多信息]

@inproceedings{48484,
title	= {Taskmaster-1: Toward a Realistic and Diverse Dialog Dataset},
author	= {Bill Byrne and Karthik Krishnamoorthi and Chinnadhurai Sankar and Arvind Neelakantan and Daniel Duckworth and Semih Yavuz and Ben Goodrich and Amit Dubey and Kyu-Young Kim and Andy Cedilnik},
year	= {2019}
}

贡献者

感谢 @patil-suraj 添加了此数据集。

作者:

佚名

数据集大小:

21.37 KB