数据集:

taskmaster1

语言:

en

计算机处理:

monolingual

大小:

1K<n<10K

语言创建人:

crowdsourced

批注创建人:

crowdsourced

源数据集:

original

预印本库:

arxiv:1909.05358

许可:

cc-by-4.0
英文

Taskmaster-1 数据集卡片

数据集摘要

Taskmaster-1 是一个面向目标的对话数据集。它包含13,215个基于任务的对话,涵盖六个领域。创建此数据集采用了两种不同的方法,每种方法都具有独特的优势。第一种方法是使用两个人的“假扮人类”(Wizard of Oz,WOz)方式,训练的代理人和众包工作人员进行互动以完成任务;第二种方法是“自我对话”,即由众包工作人员自己撰写整个对话。

支持的任务和排行榜

[需要更多信息]

语言

数据集使用英语。

数据集结构

数据示例

典型的例子如下所示

{
    "conversation_id":"dlg-336c8165-068e-4b4b-803d-18ef0676f668",
    "instruction_id":"restaurant-table-2",
    "utterances":[
      {
        "index":0,
        "segments":[
          
        ],
        "speaker":"USER",
        "text":"Hi, I'm looking for a place that sells spicy wet hotdogs, can you think of any?"
      },
      {
        "index":1,
        "segments":[
          {
            "annotations":[
              {
                "name":"restaurant_reservation.name.restaurant.reject"
              }
            ],
            "end_index":37,
            "start_index":16,
            "text":"Spicy Wet Hotdogs LLC"
          }
        ],
        "speaker":"ASSISTANT",
        "text":"You might enjoy Spicy Wet Hotdogs LLC."
      },
      {
        "index":2,
        "segments":[
          
        ],
        "speaker":"USER",
        "text":"That sounds really good, can you make me a reservation?"
      },
      {
        "index":3,
        "segments":[
          
        ],
        "speaker":"ASSISTANT",
        "text":"Certainly, when would you like a reservation?"
      },
      {
        "index":4,
        "segments":[
          {
            "annotations":[
              {
                "name":"restaurant_reservation.num.guests"
              },
              {
                "name":"restaurant_reservation.num.guests"
              }
            ],
            "end_index":20,
            "start_index":18,
            "text":"50"
          }
        ],
        "speaker":"USER",
        "text":"I have a party of 50 who want a really sloppy dog on Saturday at noon."
      }
    ]
  }

数据字段

数据文件中的每个对话具有以下结构:

  • conversation_id : 全球唯一标识符,前缀为'dlg-'。该ID没有具体含义。
  • utterances : 构成对话的话语列表。
  • instruction_id : 指向包含用户(和如果适用还有代理人)指令的文件的参考。

每个话语具有以下字段:

  • index : 从0开始的索引,表示话语在对话中的顺序。
  • speaker : 可以是USER或ASSISTANT,表示该话语是由哪个角色生成的。
  • text : 话语的原始文本。对于自我对话(one_person_dialogs),该文本为众包工作人员编写。对于WOz对话,'ASSISTANT'回合由训练的代理人撰写,'USER'回合则是通过众包工作人员的口述记录转录而来。
  • segments : 含有语义注释的各种文本片段的列表。

每个片段具有以下字段:

  • start_index : 注释在话语文本中起始位置的索引。
  • end_index : 注释在话语文本中结束位置的索引。
  • text : 已经注释的原始文本。
  • annotations : 此片段的注释详细信息列表。

每个注释只有一个字段:

  • name : 注释名称。

数据拆分

  • one_person_dialogs

one_person_dialogs 配置中的数据被拆分为 train 、 dev 和 test 。

train validation test
N. Instances 6168 770 770
  • woz_dialogs

woz_dialogs 配置中的数据没有默认的拆分。

train
N. Instances 5507

数据集创建

策划理由

[需要更多信息]

源数据

[需要更多信息]

初始数据收集和规范化

[需要更多信息]

语言的原始产生者是谁?

[需要更多信息]

注释

[需要更多信息]

注释过程

[需要更多信息]

注释员是谁?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据时的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策划人员

[需要更多信息]

许可信息

数据集基于 Creative Commons Attribution 4.0 License 进行许可

引用信息

[需要更多信息]

@inproceedings{48484,
title	= {Taskmaster-1: Toward a Realistic and Diverse Dialog Dataset},
author	= {Bill Byrne and Karthik Krishnamoorthi and Chinnadhurai Sankar and Arvind Neelakantan and Daniel Duckworth and Semih Yavuz and Ben Goodrich and Amit Dubey and Kyu-Young Kim and Andy Cedilnik},
year	= {2019}
}

贡献者

感谢 @patil-suraj 添加了此数据集。