数据集:
taskmaster1
子任务:
dialogue-modeling语言:
en计算机处理:
monolingual大小:
1K<n<10K语言创建人:
crowdsourced批注创建人:
crowdsourced源数据集:
original预印本库:
arxiv:1909.05358许可:
cc-by-4.0Taskmaster-1 是一个面向目标的对话数据集。它包含13,215个基于任务的对话,涵盖六个领域。创建此数据集采用了两种不同的方法,每种方法都具有独特的优势。第一种方法是使用两个人的“假扮人类”(Wizard of Oz,WOz)方式,训练的代理人和众包工作人员进行互动以完成任务;第二种方法是“自我对话”,即由众包工作人员自己撰写整个对话。
[需要更多信息]
数据集使用英语。
典型的例子如下所示
{ "conversation_id":"dlg-336c8165-068e-4b4b-803d-18ef0676f668", "instruction_id":"restaurant-table-2", "utterances":[ { "index":0, "segments":[ ], "speaker":"USER", "text":"Hi, I'm looking for a place that sells spicy wet hotdogs, can you think of any?" }, { "index":1, "segments":[ { "annotations":[ { "name":"restaurant_reservation.name.restaurant.reject" } ], "end_index":37, "start_index":16, "text":"Spicy Wet Hotdogs LLC" } ], "speaker":"ASSISTANT", "text":"You might enjoy Spicy Wet Hotdogs LLC." }, { "index":2, "segments":[ ], "speaker":"USER", "text":"That sounds really good, can you make me a reservation?" }, { "index":3, "segments":[ ], "speaker":"ASSISTANT", "text":"Certainly, when would you like a reservation?" }, { "index":4, "segments":[ { "annotations":[ { "name":"restaurant_reservation.num.guests" }, { "name":"restaurant_reservation.num.guests" } ], "end_index":20, "start_index":18, "text":"50" } ], "speaker":"USER", "text":"I have a party of 50 who want a really sloppy dog on Saturday at noon." } ] }
数据文件中的每个对话具有以下结构:
每个话语具有以下字段:
每个片段具有以下字段:
每个注释只有一个字段:
one_person_dialogs 配置中的数据被拆分为 train 、 dev 和 test 。
train | validation | test | |
---|---|---|---|
N. Instances | 6168 | 770 | 770 |
woz_dialogs 配置中的数据没有默认的拆分。
train | |
---|---|
N. Instances | 5507 |
[需要更多信息]
[需要更多信息]
初始数据收集和规范化[需要更多信息]
语言的原始产生者是谁?[需要更多信息]
[需要更多信息]
注释过程[需要更多信息]
注释员是谁?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
数据集基于 Creative Commons Attribution 4.0 License 进行许可
[需要更多信息]
@inproceedings{48484, title = {Taskmaster-1: Toward a Realistic and Diverse Dialog Dataset}, author = {Bill Byrne and Karthik Krishnamoorthi and Chinnadhurai Sankar and Arvind Neelakantan and Daniel Duckworth and Semih Yavuz and Ben Goodrich and Amit Dubey and Kyu-Young Kim and Andy Cedilnik}, year = {2019} }
感谢 @patil-suraj 添加了此数据集。