数据集:

medical_questions_pairs

语言:

en

计算机处理:

monolingual

大小:

1K<n<10K

语言创建人:

other

批注创建人:

expert-generated

源数据集:

original

预印本库:

arxiv:2008.13546
英文

[medical_questions_pairs] 数据集卡片

数据集概要

该数据集由Curai的医生手工生成和标记的3048个相似和不相似的医疗问题对组成。医生们提供了1524个从公开可获取的 HealthTap 的抓取中随机抽样的患者问问题列表。每个问题通过以下指导为标注者生成一个相似的和一个不同的问题对:

  • 以不同的方式重写原始问题,同时保持相同的意图。尽可能重组语法,并更改不会影响你的回答的医学细节。例如,“我是一个22岁的女性”可以变为“我的26岁的女儿”。
  • 提出一个相关但不相似的问题,原始问题的答案是错误的或不相关的。使用类似的关键词。

第一条指示生成一个正的问题对(相似),第二条生成一个负的问题对(不同)。通过上述指导,任务被刻意设计成正的问题对在表面指标上可能看起来非常不同,而负的问题对则相反,其看起来可能非常相似。这确保了任务的不可简单解决性。

支持的任务和排行榜

  • 文本分类:该数据集可用于训练模型以识别相似和不相似的医疗问题对。

语言

该数据集中的文本为英文。

数据集结构

数据实例

数据集包含doctor_id, question_1, question_2, label字段。为此任务使用了11名不同的医生,因此doctor_id范围从1到11。标签为1表示问题对相似,否则为0。

数据字段

  • doctor_id:为此任务使用了11名不同的医生,因此doctor_id范围从1到11
  • question_1:原始问题
  • question_2:以与原始问题相同意图重写的问题
  • label:如果问题对相似,则标签为1,否则为0

数据拆分

目前该数据集仅包含一个拆分(训练集),但可以根据需求进一步拆分。

数据集创建

医生们手提一个由1524个从公开可获得的 HealthTap 的抓取中随机抽样的患者提问问题列表。通过以下指导为标注者生成一个相似的和一个不同的问题对:

  • 以不同的方式重写原始问题,同时保持相同的意图。尽可能重组语法,并更改不会影响你的回答的医学细节。例如,“我是一个22岁的女性”可以变为“我的26岁的女儿”。
  • 提出一个相关但不相似的问题,原始问题的答案是错误的或不相关的。使用类似的关键词。

第一条指示生成一个正的问题对(相似),第二条生成一个负的问题对(不同)。通过上述指导,任务被刻意设计成正的问题对在表面指标上可能看起来非常不同,而负的问题对则相反,其看起来可能非常相似。这确保了任务的不可简单解决性。

策划原因

[需要更多信息]

来源数据

从公开可获取的 HealthTap 的抓取中随机抽样的1524个患者提问问题。

初始数据收集和规范化

[需要更多信息]

谁是源语言生成者?

[需要更多信息]

注释

[需要更多信息]

注释过程

医生们手提一个由1524个从公开可获得的 HealthTap 的抓取中随机抽样的患者提问问题列表。通过以下指导为标注者生成一个相似的和一个不同的问题对:

  • 以不同的方式重写原始问题,同时保持相同的意图。尽可能重组语法,并更改不会影响你的回答的医学细节。例如,“我是一个22岁的女性”可以变为“我的26岁的女儿”。
  • 提出一个相关但不相似的问题,原始问题的答案是错误的或不相关的。使用类似的关键词。

第一条指示生成一个正的问题对(相似),第二条生成一个负的问题对(不同)。通过上述指导,任务被刻意设计成正的问题对在表面指标上可能看起来非常不同,而负的问题对则相反,其看起来可能非常相似。这确保了任务的不可简单解决性。

谁是标注者?

Curai的医生

个人和敏感信息

[需要更多信息]

使用数据的注意事项

[需要更多信息]

数据集的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

[需要更多信息]

数据集策划者

[需要更多信息]

许可信息

[需要更多信息]

引用信息

@misc{mccreery2020effective,
      title={Effective Transfer Learning for Identifying Similar Questions: Matching User Questions to COVID-19 FAQs}, 
      author={Clara H. McCreery and Namit Katariya and Anitha Kannan and Manish Chablani and Xavier Amatriain},
      year={2020},
      eprint={2008.13546},
      archivePrefix={arXiv},
      primaryClass={cs.IR}
}

贡献

感谢 @tuner007 添加此数据集。