数据集:
taskmaster2
子任务:
dialogue-modeling语言:
en计算机处理:
monolingual大小:
1K<n<10K语言创建人:
crowdsourced批注创建人:
crowdsourced源数据集:
original预印本库:
arxiv:1909.05358许可:
cc-by-4.0Taskmaster 是用于目标导向对话的数据集。Taskmaster-2 数据集包含了7个领域的17,289个对话,包括餐厅、食品订购、电影、酒店、航班、音乐和体育。与 Taskmaster-1 不同,Taskmaster-2 完全由两人对话组成,而不包括书面的“自我对话”。此外,虽然 Taskmaster-1 几乎完全是基于任务的,但 Taskmaster-2 包含了相当数量的搜索和推荐导向的对话。所有此版本中的对话均使用“奥兹巫师”(Wizard of Oz, WOz) 方法创建,其中众包工作者扮演“用户”的角色,训练的呼叫中心操作员扮演“助手”的角色。通过这种方式,用户会相信他们正在与一个使用文本转语音 (TTS) 说话的自动化系统进行交互,而实际上背后是一个真人。因此,用户可以根据自己的选择在自动化界面的上下文中表达自己。
[需要更多信息]
数据集使用的语言是英语。
典型示例如下所示
{ "conversation_id": "dlg-0047a087-6a3c-4f27-b0e6-268f53a2e013", "instruction_id": "flight-6", "utterances": [ { "index": 0, "segments": [], "speaker": "USER", "text": "Hi, I'm looking for a flight. I need to visit a friend." }, { "index": 1, "segments": [], "speaker": "ASSISTANT", "text": "Hello, how can I help you?" }, { "index": 2, "segments": [], "speaker": "ASSISTANT", "text": "Sure, I can help you with that." }, { "index": 3, "segments": [], "speaker": "ASSISTANT", "text": "On what dates?" }, { "index": 4, "segments": [ { "annotations": [ { "name": "flight_search.date.depart_origin" } ], "end_index": 37, "start_index": 27, "text": "March 20th" }, { "annotations": [ { "name": "flight_search.date.return" } ], "end_index": 45, "start_index": 41, "text": "22nd" } ], "speaker": "USER", "text": "I'm looking to travel from March 20th to 22nd." } ] }
数据文件中的每个对话具有以下结构:
每个话语具有以下字段:
每个片段具有以下字段:
每个注释具有单个字段:
所有配置都没有默认的拆分方式。下表列出了每个配置中的示例数。
Config | Train |
---|---|
flights | 2481 |
food-orderings | 1050 |
hotels | 2355 |
movies | 3047 |
music | 1602 |
restaurant-search | 3276 |
sports | 3478 |
[需要更多信息]
[需要更多信息]
初始数据收集和规范化[需要更多信息]
谁是源语言的生产者?[需要更多信息]
[需要更多信息]
注释过程[需要更多信息]
谁是标注者?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
该数据集根据创作共用署名4.0许可进行许可
[需要更多信息]
@inproceedings{48484, title = {Taskmaster-1: Toward a Realistic and Diverse Dialog Dataset}, author = {Bill Byrne and Karthik Krishnamoorthi and Chinnadhurai Sankar and Arvind Neelakantan and Daniel Duckworth and Semih Yavuz and Ben Goodrich and Amit Dubey and Kyu-Young Kim and Andy Cedilnik}, year = {2019} }
感谢 @patil-suraj 提供此数据集。