数据集:

craigslist_bargains

语言:

en

计算机处理:

monolingual

大小:

1K<n<10K

语言创建人:

crowdsourced

批注创建人:

machine-generated

源数据集:

original

预印本库:

arxiv:1808.09637
英文

CraigslistBargains 数据集卡片

数据集摘要

我们研究了买家和卖家就待售物品价格进行的谈判对话。我们从Craigslist上抓取了超过6K个谈判对话的多个产品类别的数据集。我们的目标是开发一个能够通过这些对话与人类进行谈判的代理程序。挑战在于处理谈判策略和丰富的谈判语言。为此,我们开发了一个模块化框架,将策略学习与语言生成分开。具体而言,我们在一个粗略的对话行为空间中学习策略,并将其实例化为基于对话历史的话语。

支持的任务和排行榜

语言

该数据集为英语。

数据集结构

数据实例

{
  'agent_info': {
    'Bottomline': 
      [
        'None', 
        'None'
      ],
    'Role': 
      [
        'buyer', 
        'seller'
      ],
    'Target': 
      [
        7.0, 
        10.0
      ]
  },
  'agent_turn': 
    [
      0, 
      1, 
      ...
    ],
  'dialogue_acts': {
    'intent': 
      [
        'init-price',
        'unknown',
        ...
      ],
    'price': 
      [
        5.0, 
        -1.0, 
        ...
        ]
    },
  'items': {
    'Category': 
      [
        'phone', 
        'phone'
      ],
    'Description': 
      [
        'Charge two devices simultaneously on the go..., 
        ...
      ],
    'Images': 
      [
        'phone/6149527852_0.jpg', 
        'phone/6149527852_0.jpg'
      ],
    'Price': 
      [
        10.0, 
        10.0
      ],
    'Title': 
      [
        'Verizon Car Charger with Dual Output Micro USB and ...', 
        ...
      ]
    },
  'utterance': 
    [
      'Hi, not sure if the charger would work for my car...'
      'It will work...',
      ...
    ]
}

数据字段

  • agent_info:参与对话的每个代理的信息
    • Bottomline:待定
    • Role:代理是买家还是卖家
    • Target:买家/卖家希望达到的目标价格
  • agent_turn:在对话中负责当前轮次的代理(整数索引对应上面的Role)
  • dialogue_acts:关于每个轮次代理策略的基于规则的信息
    • intent:代理在特定轮次的意图(出价、接受等)
    • price:与意图和谈判过程中的轮次相关的当前物品价格,默认值为(-1)
  • items:代理进行讨价还价的物品信息。请注意,对于每个代理,下面的每个字段都有一个元素
    • Category:物品类别
    • Description:物品的描述
    • Images:物品的(逗号分隔的)图像名称字符串
    • Price:物品的价格。默认值为(-1)
    • Title:物品的标题
  • utterance:表示对话中每个轮次的话语,与agent_turns对应。如果在话语之后发生多个对话行为(例如,在所有话语完成后通常有多个与议价结束相关的对话行为,描述议价的结论),某些轮次的话语可能为空字符串('')。

数据拆分

该数据集包含三个拆分,训练集、验证集和测试集。请注意,测试集不提供上述对话行为(dialogue_acts)的信息。为了确保数据集拆分的模式一致性,测试集中的对话行为字段(dialogue_acts)填充了默认值:{"price": -1.0, "intent": ""}

各个拆分的示例计数如下:

| | 训练集 | 验证集 | 测试集 || 输入示例 | 5247 | 597 | 838 || 平均对话长度 | 9.14 | 9.17 | 9.24 |

请注意

数据集创建

从此数据集的 source paper 开始:

为了生成谈判场景,我们从sfbay.craigslist.org上抓取了6个最受欢迎的类别(住房、家具、汽车、自行车、电话和电子产品)的帖子。每个帖子产生了三个场景,买方的目标价格分别为列表价格的0.5倍、0.7倍和0.9倍。表2显示了场景的统计信息。我们使用附录A图2中显示的界面在AMT上收集了6682个人类对话。表3中的数据集统计信息显示,与先前的数据集相比,CRAIGSLISTBARGAIN具有更长的对话和更多样化的话语。此外,鼓励工人对物品进行修饰,并进行类似免费送货或自取的讨价还价。这种高度相关的场景导致更丰富的对话,如表1所示。我们还观察到表4中列出的各种说服技巧,比如修饰。

策划理由

见数据集创建

来源数据

见数据集创建

初始数据收集和规范化

见数据集创建

数据来源是谁?

见数据集创建

注释

如果数据集包含不属于初始数据收集范围的注释,请在下面的段落中描述它们。

注释过程

关于训练集和测试集中的对话行为(dialogue_acts)的注释是通过基于规则的系统生成的,可以在 this script 中找到。

注释员是谁?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

[需要更多信息]

数据集的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

[需要更多信息]

数据集维护者

He He、Derek Chen、Anusha Balakrishnan和Percy Liang斯坦福大学计算机科学系{ hehe,derekchen14,anusha,pliang }@cs.stanford.edu

通过这些数据产生的工作得到了DARPA与计算机交流(CwC)计划的支持,在ARO主合同号W911NF15-1-0462下进行。

许可信息

[需要更多信息]

引用信息

@misc{he2018decoupling,
    title={Decoupling Strategy and Generation in Negotiation Dialogues},
    author={He He and Derek Chen and Anusha Balakrishnan and Percy Liang},
    year={2018},
    eprint={1808.09637},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

贡献

感谢 @ZacharySBrown 添加了这个数据集。