英文

对等辅导中的反思数据集卡

数据集摘要

该数据集源自大型点对点在线辅导服务中客户和辅导员之间的对话。总共有1061个观察值,包括训练和测试数据集,在定义少样本学习提示或在调整超参数时还用到了额外的50个随机抽样样本,因此总共是1111个观察值。这些观察值是从一个更大的数据集中获取的,该数据集由几种不同的临床辅导技巧的注释组成。因此,我们专注于辅导员反思的注释。辅导员反思使用Motivational Interviewing Treatment Integrity 4.2(MITI)和Motivational Interviewing Skill Code 2.5(MISC)手册在话语级别进行注释,因此整个数据集由对话上下文 - 辅导员反思对组成。

支持的任务和排行榜

该数据集用于调整和优化生成模型,以生成关于点对点辅导领域的反思陈述。

语言

该数据集的语言为英语。

数据集结构

数据实例

每个实例由对话中出现的聊天室ID、prompt(紧接在辅导员反思之前的对话上下文,包括来自客户或辅导员的以及在最近辅导员消息后紧接出现的客户消息之前的最新消息),和completion(辅导员反思)组成。

{
  'chat_id': "1234567",
  'prompt': "Client: I'm 19, he's 25. He's not very considerate of how I feel but says he cares about me and loves me.\nCounselor:",
  'completion': " The words are easy, actions are needed. Guys who are 25 just desire to have different experiences.\n\n",
}

数据字段

  • chat_id:定义对话的聊天ID的整数
  • prompt:与辅导员反思之前的对话上下文对应的字符串,消息由换行符分隔,每个话语以'Client:'或'Counselor:'开头。字符串以'Counselor:'结尾,表示后面跟着的是辅导员的补充说明。
  • completion:与辅导员反思相对应的字符串

数据拆分

该数据集分为训练集、测试集和一个包含50个示例的小数据集,用于设计少样本学习提示或调整超参数。其中,使用了911个示例进行训练。这些示例中的350个还构成了用于比较实验的缩减训练集。使用了150个示例进行测试。其中的50个测试示例是随机选取的,并用于人工评估。我们确保测试集中消息的聊天标识符与训练集中的不同。

数据集创建

策划理由

反思倾听是点对点辅导中的重要技能,只有在相应的上下文中才能发挥作用。因此,我们希望专注于这一特定技能,并探索在该领域中运用最先进的语言模型进行文本生成的潜力。

源数据

初始数据收集和标准化

通过从注释了许多不同辅导技巧的更大的utterance数据集中过滤出仅包含辅导员消息的反思部分来创建该数据集。然后,通过识别每个辅导员反思实例的前置消息来创建提示实例。初始创建的提示中删除了长度小于或等于五个单词的提示。

作者为缩减的训练集中的350个示例的每个对话上下文创建了参考反思,以及150个测试示例的参考反思。在给定每个对话上下文的情况下,作者试图模拟在与客户对话中嵌入了此轮次的情况下,与客户的响应大致相同时间的辅导员响应。对时间的判断基于作者在为危机热线做义工时的经验。由于需要创建数百个对话上下文的反思,所以创建参考反思可能所需要的时间甚至少于一位平均辅导员响应的时间。

资源语言生成者是谁?

“客户”消息是在大型在线辅导服务平台上寻求心理健康支持的人的话语。"辅导员"消息是该大型在线辅导服务的初级培训的辅导员的话语。

对于缩减的训练集中的350个示例和每个测试示例,作者也创建了参考反思。

注释

注释过程

人工评估了在使用完整训练集、缩减训练集和参考反思进行微调的生成模型、少样本学习模型、实际辅导员和参考反思的文本。我们通过Amazon Mechanical Turk Developer Sandbox进行了一项调查。提供了50个测试的提示,以及对应的六个响应来源。评估者根据三个标准(流畅性、反思相似性和整体偏好)评估响应。因此,对于每个上下文,评估者评估了六个候选响应的流畅性、反思相似性和整体偏好。

我们使用了Effective Annotation of Scalar Labels(EASL)的变种,这是直接评估和在线成对排序聚合以及基于等级的幅度估算之间的混合方法。评估者一次性看到了所有六个响应(不知道每个响应的来源),并使用从1到5的滑动刻度根据三个维度对响应进行评分。每个对话上下文的模型响应顺序是随机的。我们为整体流畅性和反思相似性维度上的1和5等级提供了示例评分的示例。但对于整体偏好,我们没有提供示例,注明这是主观的。每个对话上下文的模型响应顺序是随机的。我们为整体流畅性和反思相似性维度上的1和5等级提供了示例评分的示例。但对于整体偏好,我们没有提供示例,注明这是主观的。

流畅性指的是响应的整体流畅程度和人类特征。在说明中,我们指出非大写词和口语化语言是可以接受的,并且不被视为流畅性错误。反思相似性指的是响应是否捕捉到并返回给客户其所说的内容。整体偏好指评估者对响应的喜好程度。

我们使用Krippendorff的alpha系数衡量了评估者间的一致性,得到了整体流畅性、反思相似性和整体偏好的alpha值分别为-0.0369、0.557和0.358。尽管这些一致性值很低,但我们在反思相似性上获得的0.557的一致性显著高于先前最相关工作中获得的反思相似性的一致性。

注释者是谁?

为人工评估招募的三名注释者熟悉辅导反思。这三名注释者通过IRB批准与该大型在线辅导服务数据集一起工作。他们非常熟悉动机式访谈代码,可以注释消息并使用大型语言模型进行质量标注。

个人和敏感信息

由于此数据集的敏感性和隐私问题,我们无法公开共享数据。

使用数据的注意事项

数据集的社会影响

对等辅导的反思数据集可以作为理解和评估辅导临床技能的参考点,并进一步发展将语言技术应用于此领域的潜力。鉴于心理健康护理环境的敏感性和这些辅导员的最低培训水平,使用此类数据需要谨慎,以了解基于此语言定义的技术的局限性。

偏见讨论

在这个在线辅导服务平台上的对话中,很多语言都非常非正式,一些客户和辅导员的话语也可能包含贬损性语言。

至于本项工作中进行人工评估的生成文本,重要的是注意,GPT-3是根据来自互联网和图书的超过45TB的数据进行训练的,而从在线来源收集的大量数据将不可避免地包含可能被捕捉的偏见。因此,在精神健康脆弱环境中使用生成的回应作为指导而不是将生成系统用作辅导员本身,可以在利用人工智能进行敏感心理健康设置时平衡利益和风险。关键是不应该被企业误用,以追求最大效率和最小成本。

本工作中的参考反思由作者创建,作者的辅导和动机临床面试经验来自于在青少年危机热线和文本服务中培训超过一百小时,并通过研究奖让护士练习和提高他们的动机面试技巧。因此,参考反思可能不如医学专业人士的临床精确,并且反思的多样性在本质上是有限的。

其他已知限制

附加信息

数据集贡献者

由Emma O'Neil、João Sedoc、Diyi Yang、Haiyi Zhu、Lyle Ungar开发。

许可信息

引用信息

贡献

感谢 @emoneil 添加了该数据集。