英文

Coached Conversational Preference Elicitation数据集卡片

数据集摘要

该数据集包含502个英语对话,共计12,000个经过注释的用户与助手之间的自然语言电影偏好讨论语句。这些数据是通过Wizard-of-Oz方法收集的,其中两个付费众包工作者扮演“助手”和“用户”的角色。助手采用Coached Conversational Preference Elicitation (CCPE)方法询问用户对电影的偏好。助手设计了一些问题,旨在尽可能减少用户在传达偏好时使用的术语偏差,以及以自然语言获得这些偏好。每个对话都带有实体提及、关于实体的偏好表达、提供的实体描述以及有关实体的其他语句的注释。

支持的任务和排行榜

  • 其他-其他对话推荐:可以使用该数据集训练对话推荐模型,其中包括Coached Conversational Preference Elicitation。

语言

该数据集中的文本为英语。相关的BCP-47代码是en。

数据集结构

数据实例

一个典型的数据点由“助手”和“用户”之间的一系列话语组成。每个话语都被注释为数据字段中提到的类别。

Coached Conversational Preference Elicitation数据集的示例如下:

{'conversationId': 'CCPE-6faee',
 'utterances': {'index': [0,
   1,
   2,
   3,
   4,
   5,
   6,
   7,
   8,
   9,
   10,
   11,
   12,
   13,
   14,
   15],
  'segments': [{'annotations': [{'annotationType': [], 'entityType': []}],
    'endIndex': [0],
    'startIndex': [0],
    'text': ['']},
   {'annotations': [{'annotationType': [0], 'entityType': [0]},
     {'annotationType': [1], 'entityType': [0]}],
    'endIndex': [20, 27],
    'startIndex': [14, 0],
    'text': ['comedy', 'I really like comedy movies']},
   {'annotations': [{'annotationType': [0], 'entityType': [0]}],
    'endIndex': [24],
    'startIndex': [16],
    'text': ['comedies']},
   {'annotations': [{'annotationType': [1], 'entityType': [0]}],
    'endIndex': [15],
    'startIndex': [0],
    'text': ['I love to laugh']},
   {'annotations': [{'annotationType': [], 'entityType': []}],
    'endIndex': [0],
    'startIndex': [0],
    'text': ['']},
   {'annotations': [{'annotationType': [0], 'entityType': [1]},
     {'annotationType': [1], 'entityType': [1]}],
    'endIndex': [21, 21],
    'startIndex': [8, 0],
    'text': ['Step Brothers', 'I liked Step Brothers']},
   {'annotations': [{'annotationType': [], 'entityType': []}],
    'endIndex': [0],
    'startIndex': [0],
    'text': ['']},
   {'annotations': [{'annotationType': [1], 'entityType': [1]}],
    'endIndex': [32],
    'startIndex': [0],
    'text': ['Had some amazing one-liners that']},
   {'annotations': [{'annotationType': [], 'entityType': []}],
    'endIndex': [0],
    'startIndex': [0],
    'text': ['']},
   {'annotations': [{'annotationType': [0], 'entityType': [1]},
     {'annotationType': [1], 'entityType': [1]}],
    'endIndex': [15, 15],
    'startIndex': [13, 0],
    'text': ['RV', "I don't like RV"]},
   {'annotations': [{'annotationType': [], 'entityType': []}],
    'endIndex': [0],
    'startIndex': [0],
    'text': ['']},
   {'annotations': [{'annotationType': [1], 'entityType': [1]},
     {'annotationType': [1], 'entityType': [1]}],
    'endIndex': [48, 66],
    'startIndex': [18, 50],
    'text': ['It was just so slow and boring', "I didn't like it"]},
   {'annotations': [{'annotationType': [0], 'entityType': [1]}],
    'endIndex': [63],
    'startIndex': [33],
    'text': ['Jurassic World: Fallen Kingdom']},
   {'annotations': [{'annotationType': [0], 'entityType': [1]},
     {'annotationType': [3], 'entityType': [1]}],
    'endIndex': [52, 52],
    'startIndex': [22, 0],
    'text': ['Jurassic World: Fallen Kingdom',
     'I have seen the movie Jurassic World: Fallen Kingdom']},
   {'annotations': [{'annotationType': [], 'entityType': []}],
    'endIndex': [0],
    'startIndex': [0],
    'text': ['']},
   {'annotations': [{'annotationType': [1], 'entityType': [1]},
     {'annotationType': [1], 'entityType': [1]},
     {'annotationType': [1], 'entityType': [1]}],
    'endIndex': [24, 125, 161],
    'startIndex': [0, 95, 135],
    'text': ['I really like the actors',
     'I just really like the scenery',
     'the dinosaurs were awesome']}],
  'speaker': [1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0],
  'text': ['What kinds of movies do you like?',
   'I really like comedy movies.',
   'Why do you like comedies?',
   "I love to laugh and comedy movies, that's their whole purpose. Make you laugh.",
   'Alright, how about a movie you liked?',
   'I liked Step Brothers.',
   'Why did you like that movie?',
   'Had some amazing one-liners that still get used today even though the movie was made awhile ago.',
   'Well, is there a movie you did not like?',
   "I don't like RV.",
   'Why not?',
   "And I just didn't It was just so slow and boring. I didn't like it.",
   'Ok, then have you seen the movie Jurassic World: Fallen Kingdom',
   'I have seen the movie Jurassic World: Fallen Kingdom.',
   'What is it about these kinds of movies that you like or dislike?',
   'I really like the actors. I feel like they were doing their best to make the movie better. And I just really like the scenery, and the the dinosaurs were awesome.']}}

数据字段

每个对话具有以下字段:

  • conversationId:对话的唯一随机ID。该ID没有实际含义。
  • utterances:由工作者的话语数组。

每个话语具有以下字段:

  • index:基于0的索引,指示话语在对话中的顺序。
  • speaker:USER或ASSISTANT,指示生成该话语的角色。
  • text:由ASSISTANT编写的原始文本,或从USER的口头记录中转录的文本。
  • segments:文本中语义注释的跨度数组。

每个语义注释段具有以下字段:

  • startIndex:注释在话语文本中的起始位置。
  • endIndex:注释在话语文本中的结束位置。
  • text:已进行注释的原始文本。
  • annotations:此段的注释详细信息数组。

每个注释具有两个字段:

  • annotationType:注释的类别(参见下面的本体论)。
  • entityType:所引用文本所指的实体类别(参见下面的本体论)。

本体论解释

在语料库中,对偏好和这些偏好所涉及的实体进行了注释,包括注释类型和实体类型。

注释类型分为四类:

  • ENTITY_NAME(0):标记提到的相关实体的名称。
  • ENTITY_PREFERENCE(1):这些是指示对话参与者是否喜欢相关实体的陈述,或者他们是否喜欢实体的某些方面。这也可以理解为参与者对所讨论内容的情感感受。
  • ENTITY_DESCRIPTION(2):中性描述,描述实体但不表达明确的喜好或厌恶。
  • ENTITY_OTHER(3):关于实体的其他相关陈述,表达参与者与实体的相关信息,但不提供情感感受。最常见的是与参与者是否看过某部电影或对给定实体了解多少有关。

实体类型标记为属于四个类别之一:

  • MOVIE_GENRE_OR_CATEGORY(0):用于电影类型或通用描述,体现特定类型或风格的电影。
  • MOVIE_OR_SERIES(1):用于电影或电影系列的完整或部分名称。
  • PERSON(2):用于实际人物的全名或部分名称。
  • SOMETHING_ELSE(3):用于其他重要专有名词,例如角色或地点的名称。

数据拆分

数据集有一个名为“train”的拆分,包含整个数据集。

Train
Input Conversations 502

数据集创建

策划理由

[需要更多信息]

源数据

Initial Data Collection and Normalization

[需要更多信息]

Who are the source language producers?

[需要更多信息]

注释

注释过程

[需要更多信息]

Who are the annotators?

[需要更多信息]

个人与敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

额外信息

数据集策划者

[需要更多信息]

许可信息

Creative Commons Attribution 4.0 License

引用信息

@inproceedings{radlinski-etal-2019-ccpe,
  title = {Coached Conversational Preference Elicitation: A Case Study in Understanding Movie Preferences},
  author = {Filip Radlinski and Krisztian Balog and Bill Byrne and Karthik Krishnamoorthi},
  booktitle = {Proceedings of the Annual Meeting of the Special Interest Group on Discourse and Dialogue ({SIGDIAL})},
  year = 2019
}

贡献

感谢 @vineeths96 添加了这个数据集。