数据集:
casino
子任务:
dialogue-modeling语言:
en计算机处理:
monolingual大小:
1K<n<10K语言创建人:
crowdsourced批注创建人:
expert-generated源数据集:
original许可:
cc-by-4.0我们提供了一个新颖的数据集(称为CaSiNo),其中包含1030个谈判对话。两个参与者扮演营地邻居的角色,并根据他们个人的偏好和需求来就食物、水和木柴包进行谈判。这种设计使得任务可行,同时仍有助于产生语言丰富和个人化的对话。这有助于克服之前谈判数据集(如Deal or No Deal和Craigslist Bargain)的局限性。每个对话都包含丰富的元数据,包括参与者的人口统计学特征、个性以及他们对谈判的满意度和对手喜欢程度的主观评价。
训练用于谈判的端到端模型
英语
{ "chat_logs": [ { "text": "Hello! \ud83d\ude42 Let's work together on a deal for these packages, shall we? What are you most interested in?", "task_data": {}, "id": "mturk_agent_1" }, ... ], "participant_info": { "mturk_agent_1": { "value2issue": ... "value2reason": ... "outcomes": ... "demographics": ... "personality": ... }, "mturk_agent_2": ... }, "annotations": [ ["Hello! \ud83d\ude42 Let's work together on a deal for these packages, shall we? What are you most interested in?", "promote-coordination,elicit-pref"], ... ] }
未提供默认数据拆分。因此,所有1030个数据点都在“训练”拆分中。
Train | |
---|---|
total dialogues | 1030 |
annotated dialogues | 396 |
该数据集的收集旨在解决谈判数据集在教育学和对话式人工智能领域应用中的局限性。请参阅NAACL 2021年的原始论文以获取关于理念和数据策划步骤的详细信息( source paper )。
对话是在亚马逊 Mechanical Turk 上众包完成的。策略注释由专属注释员(论文的前三位作者)执行。请参阅NAACL 2021年的原始数据集论文以获取更多详细信息( source paper )。
谁是源语言的制作者?主要制作者是亚马逊 Mechanical Turk 平台上的众包者。两个众包者被随机配对进行谈判,通过聊天界面进行对话。请参阅NAACL 2021年的原始数据集论文以获取更多详细信息( source paper )。
关于该数据集的 source paper :
三个专家注释员独立标注了包含4615个话语的396个对话。注释指南在5个对话的子集上进行了迭代,可靠性分数是在另一个由10个对话组成的子集上计算的。我们使用Krippendorff的alpha系数(Krippendorff, 2018)的名义形式来衡量注释员之间的一致性。我们在表2中提供了注释统计信息。尽管我们发布了所有注释,但在这项工作中,我们跳过了协调和同理心,因为其较高的主观性导致相对较低的可靠性分数。
谁是注释者?三个专家注释员(论文的前三位作者)。
在发布数据之前,已删除有关参与者的所有个人识别信息,如 MTurk ID 或 HIT ID。
请参阅 source paper 的第8.2节。
请参阅 source paper 的第8.2节。
请参阅 source paper 的第7节。
对应作者:Kushal Chawla (kchawla@usc.edu) 学术机构:南加州大学 请参阅 source paper 以获取完整的作者列表。
该项目基于CC-by-4.0许可。
@inproceedings{chawla2021casino, title={CaSiNo: A Corpus of Campsite Negotiation Dialogues for Automatic Negotiation Systems}, author={Chawla, Kushal and Ramirez, Jaysa and Clever, Rene and Lucas, Gale and May, Jonathan and Gratch, Jonathan}, booktitle={Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies}, pages={3167--3185}, year={2021} }
感谢 Kushal Chawla 添加了此数据集。