数据集:

deal_or_no_dialog

任务:

对话

语言:

en

计算机处理:

monolingual

大小:

10K<n<100K

语言创建人:

crowdsourced

批注创建人:

crowdsourced

源数据集:

original

预印本库:

arxiv:1706.05125

许可:

cc-by-4.0
英文

Deal or No Deal Negotiator 数据集卡片

数据集摘要

这是一个大规模的人际协商数据集,涉及到多议题的交易任务,代理方无法观察对方的奖励函数,在自然语言对话中达成协议或交易。

支持的任务和排行榜

用于训练端到端的协商模型。

语言

数据集中的文本为英语。

数据集结构

数据实例

{'dialogue': 'YOU: i love basketball and reading THEM: no . i want the hat and the balls YOU: both balls ? THEM: yeah or 1 ball and 1 book YOU: ok i want the hat and you can have the rest THEM: okay deal ill take the books and the balls you can have only the hat YOU: ok THEM: ', 'input': {'count': [3, 1, 2], 'value': [0, 8, 1]}, 'output': 'item0=0 item1=1 item2=0 item0=3 item1=0 item2=2', 'partner_input': {'count': [3, 1, 2], 'value': [1, 3, 2]}}

数据字段

对话 : 代理之间的对话。 输入 : 第一个代理的输入。 合作伙伴输入 : 另一个代理的输入。 计数 : 三种可用物品的数量。 价值 : 三种可用物品的价值。 输出 : 描述每个代理分配到的三种物品的数量。

数据拆分

train validation test
dialogues 10095 1087 1052
self_play 8172 NA NA

数据集创建

创建理由

[需要更多信息]

数据来源

初始数据收集和标准化

[需要更多信息]

文本作者是谁?

[需要更多信息]

注释

注释过程

[需要更多信息]

注释者是谁?

使用亚马逊 Mechanical Turk 的人工工作者。他们的报酬为每个对话0.15美元,并且最高评分可获得0.05美元的奖金。只选择了基于美国的工作者,拥有95%的批准率和至少5000个以前的HIT评级。

个人和敏感信息

[需要更多信息]

使用数据时的注意事项

数据集的社会影响

[需要更多信息]

数据偏见的讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集创建者

[需要更多信息]

许可信息

该项目采用CC-by-NC许可。

引用信息

@article{lewis2017deal,
  title={Deal or no deal? end-to-end learning for negotiation dialogues},
  author={Lewis, Mike and Yarats, Denis and Dauphin, Yann N and Parikh, Devi and Batra, Dhruv},
  journal={arXiv preprint arXiv:1706.05125},
  year={2017}
}

贡献

感谢 @moussaKam 添加此数据集。