数据集:
craigslist_bargains
子任务:
dialogue-modeling语言:
en计算机处理:
monolingual大小:
1K<n<10K语言创建人:
crowdsourced批注创建人:
machine-generated源数据集:
original预印本库:
arxiv:1808.09637许可:
license:unknown我们研究了买家和卖家就待售物品价格进行的谈判对话。我们从Craigslist上抓取了超过6K个谈判对话的多个产品类别的数据集。我们的目标是开发一个能够通过这些对话与人类进行谈判的代理程序。挑战在于处理谈判策略和丰富的谈判语言。为此,我们开发了一个模块化框架,将策略学习与语言生成分开。具体而言,我们在一个粗略的对话行为空间中学习策略,并将其实例化为基于对话历史的话语。
该数据集为英语。
{ 'agent_info': { 'Bottomline': [ 'None', 'None' ], 'Role': [ 'buyer', 'seller' ], 'Target': [ 7.0, 10.0 ] }, 'agent_turn': [ 0, 1, ... ], 'dialogue_acts': { 'intent': [ 'init-price', 'unknown', ... ], 'price': [ 5.0, -1.0, ... ] }, 'items': { 'Category': [ 'phone', 'phone' ], 'Description': [ 'Charge two devices simultaneously on the go..., ... ], 'Images': [ 'phone/6149527852_0.jpg', 'phone/6149527852_0.jpg' ], 'Price': [ 10.0, 10.0 ], 'Title': [ 'Verizon Car Charger with Dual Output Micro USB and ...', ... ] }, 'utterance': [ 'Hi, not sure if the charger would work for my car...' 'It will work...', ... ] }
该数据集包含三个拆分,训练集、验证集和测试集。请注意,测试集不提供上述对话行为(dialogue_acts)的信息。为了确保数据集拆分的模式一致性,测试集中的对话行为字段(dialogue_acts)填充了默认值:{"price": -1.0, "intent": ""}
各个拆分的示例计数如下:
| | 训练集 | 验证集 | 测试集 || 输入示例 | 5247 | 597 | 838 || 平均对话长度 | 9.14 | 9.17 | 9.24 |
请注意
从此数据集的 source paper 开始:
为了生成谈判场景,我们从sfbay.craigslist.org上抓取了6个最受欢迎的类别(住房、家具、汽车、自行车、电话和电子产品)的帖子。每个帖子产生了三个场景,买方的目标价格分别为列表价格的0.5倍、0.7倍和0.9倍。表2显示了场景的统计信息。我们使用附录A图2中显示的界面在AMT上收集了6682个人类对话。表3中的数据集统计信息显示,与先前的数据集相比,CRAIGSLISTBARGAIN具有更长的对话和更多样化的话语。此外,鼓励工人对物品进行修饰,并进行类似免费送货或自取的讨价还价。这种高度相关的场景导致更丰富的对话,如表1所示。我们还观察到表4中列出的各种说服技巧,比如修饰。
见数据集创建
见数据集创建
初始数据收集和规范化见数据集创建
数据来源是谁?见数据集创建
如果数据集包含不属于初始数据收集范围的注释,请在下面的段落中描述它们。
注释过程关于训练集和测试集中的对话行为(dialogue_acts)的注释是通过基于规则的系统生成的,可以在 this script 中找到。
注释员是谁?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
He He、Derek Chen、Anusha Balakrishnan和Percy Liang斯坦福大学计算机科学系{ hehe,derekchen14,anusha,pliang }@cs.stanford.edu
通过这些数据产生的工作得到了DARPA与计算机交流(CwC)计划的支持,在ARO主合同号W911NF15-1-0462下进行。
[需要更多信息]
@misc{he2018decoupling, title={Decoupling Strategy and Generation in Negotiation Dialogues}, author={He He and Derek Chen and Anusha Balakrishnan and Percy Liang}, year={2018}, eprint={1808.09637}, archivePrefix={arXiv}, primaryClass={cs.CL} }
感谢 @ZacharySBrown 添加了这个数据集。