数据集:

casino

任务:

对话

文本生成

填充掩码

子任务:

dialogue-modeling

语言:

计算机处理:

monolingual

大小:

1K<n<10K

语言创建人:

crowdsourced

批注创建人:

expert-generated

源数据集:

original

许可:

cc-by-4.0

数据集介绍文件清单

英文

Casino 数据集卡片

数据集摘要

我们提供了一个新颖的数据集（称为CaSiNo），其中包含1030个谈判对话。两个参与者扮演营地邻居的角色，并根据他们个人的偏好和需求来就食物、水和木柴包进行谈判。这种设计使得任务可行，同时仍有助于产生语言丰富和个人化的对话。这有助于克服之前谈判数据集（如Deal or No Deal和Craigslist Bargain）的局限性。每个对话都包含丰富的元数据，包括参与者的人口统计学特征、个性以及他们对谈判的满意度和对手喜欢程度的主观评价。

支持的任务和排行榜

训练用于谈判的端到端模型

语言

英语

数据集结构

数据示例

{
    "chat_logs": [
        {
            "text": "Hello! \ud83d\ude42 Let's work together on a deal for these packages, shall we? What are you most interested in?",
            "task_data": {}, 
            "id": "mturk_agent_1"
        },
        ...
    ],
    "participant_info": {
        "mturk_agent_1":
            {
                "value2issue": ...
                "value2reason": ...
                "outcomes": ...
                "demographics": ...
                "personality": ...
            }, 
        "mturk_agent_2": ...
    },
    "annotations": [
        ["Hello! \ud83d\ude42 Let's work together on a deal for these packages, shall we? What are you most interested in?", "promote-coordination,elicit-pref"],
        ...
    ]
}

数据字段

chat_logs : 两个参与者之间的谈判对话
- text : 对话的话语
- task_data : 与话语相关的元数据，如参与者提交的交易
- id : 输入此话语的参与者的ID
participant_info : 关于此对话中两个参与者的元数据
- mturk_agent_1 : 对于第一个参与者（注意，“第一个”仅供参考。参与者之间没有顺序，任何参与者都可以开始对话）
  - value2issue : 此参与者在食物、水、木柴中的优先顺序
  - value2reason : 参与者自己给出的个人论点，与上述优先顺序保持一致。此优先顺序和这些论点在谈判开始之前提交。
  - outcomes : 此参与者的谈判结果，包括客观和主观评估。
  - demographics : 参与者的人口统计学属性，包括年龄、性别、种族和教育水平。
  - personality : 参与者的个性属性，以大五维度和社会价值取向表示。
- mturk_agent_2 : 对于第二个参与者；结构与上述相同
annotations : 对话中每个话语的策略注释，如果可用的话。第一个元素表示话语，第二个元素表示该话语中存在的所有策略的逗号分隔列表。

数据拆分

未提供默认数据拆分。因此，所有1030个数据点都在“训练”拆分中。

Train
total dialogues	1030
annotated dialogues	396

数据集创建

策划理念

该数据集的收集旨在解决谈判数据集在教育学和对话式人工智能领域应用中的局限性。请参阅NAACL 2021年的原始论文以获取关于理念和数据策划步骤的详细信息（ source paper ）。

源数据

初始数据收集和归一化

对话是在亚马逊 Mechanical Turk 上众包完成的。策略注释由专属注释员（论文的前三位作者）执行。请参阅NAACL 2021年的原始数据集论文以获取更多详细信息（ source paper ）。

谁是源语言的制作者?

主要制作者是亚马逊 Mechanical Turk 平台上的众包者。两个众包者被随机配对进行谈判，通过聊天界面进行对话。请参阅NAACL 2021年的原始数据集论文以获取更多详细信息（ source paper ）。

注释

注释过程

关于该数据集的 source paper ：

三个专家注释员独立标注了包含4615个话语的396个对话。注释指南在5个对话的子集上进行了迭代，可靠性分数是在另一个由10个对话组成的子集上计算的。我们使用Krippendorff的alpha系数（Krippendorff, 2018）的名义形式来衡量注释员之间的一致性。我们在表2中提供了注释统计信息。尽管我们发布了所有注释，但在这项工作中，我们跳过了协调和同理心，因为其较高的主观性导致相对较低的可靠性分数。

谁是注释者?

三个专家注释员（论文的前三位作者）。

个人和敏感信息

在发布数据之前，已删除有关参与者的所有个人识别信息，如 MTurk ID 或 HIT ID。

使用数据的注意事项

数据的社会影响

请参阅 source paper 的第8.2节。

偏见讨论

请参阅 source paper 的第8.2节。

其他已知限制

请参阅 source paper 的第7节。

附加信息

数据集策划者

对应作者：Kushal Chawla (kchawla@usc.edu) 学术机构：南加州大学请参阅 source paper 以获取完整的作者列表。

许可信息

该项目基于CC-by-4.0许可。

引用信息

@inproceedings{chawla2021casino,
  title={CaSiNo: A Corpus of Campsite Negotiation Dialogues for Automatic Negotiation Systems},
  author={Chawla, Kushal and Ramirez, Jaysa and Clever, Rene and Lucas, Gale and May, Jonathan and Gratch, Jonathan},
  booktitle={Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies},
  pages={3167--3185},
  year={2021}
}

贡献者

感谢 Kushal Chawla 添加了此数据集。

作者:

佚名

数据集大小:

26.28 KB