数据集:
medical_questions_pairs
任务:
文本分类语言:
en计算机处理:
monolingual大小:
1K<n<10K语言创建人:
other批注创建人:
expert-generated源数据集:
original预印本库:
arxiv:2008.13546许可:
license:unknown该数据集由Curai的医生手工生成和标记的3048个相似和不相似的医疗问题对组成。医生们提供了1524个从公开可获取的 HealthTap 的抓取中随机抽样的患者问问题列表。每个问题通过以下指导为标注者生成一个相似的和一个不同的问题对:
第一条指示生成一个正的问题对(相似),第二条生成一个负的问题对(不同)。通过上述指导,任务被刻意设计成正的问题对在表面指标上可能看起来非常不同,而负的问题对则相反,其看起来可能非常相似。这确保了任务的不可简单解决性。
该数据集中的文本为英文。
数据集包含doctor_id, question_1, question_2, label字段。为此任务使用了11名不同的医生,因此doctor_id范围从1到11。标签为1表示问题对相似,否则为0。
目前该数据集仅包含一个拆分(训练集),但可以根据需求进一步拆分。
医生们手提一个由1524个从公开可获得的 HealthTap 的抓取中随机抽样的患者提问问题列表。通过以下指导为标注者生成一个相似的和一个不同的问题对:
第一条指示生成一个正的问题对(相似),第二条生成一个负的问题对(不同)。通过上述指导,任务被刻意设计成正的问题对在表面指标上可能看起来非常不同,而负的问题对则相反,其看起来可能非常相似。这确保了任务的不可简单解决性。
[需要更多信息]
从公开可获取的 HealthTap 的抓取中随机抽样的1524个患者提问问题。
初始数据收集和规范化
[需要更多信息]
谁是源语言生成者?[需要更多信息]
[需要更多信息]
注释过程医生们手提一个由1524个从公开可获得的 HealthTap 的抓取中随机抽样的患者提问问题列表。通过以下指导为标注者生成一个相似的和一个不同的问题对:
第一条指示生成一个正的问题对(相似),第二条生成一个负的问题对(不同)。通过上述指导,任务被刻意设计成正的问题对在表面指标上可能看起来非常不同,而负的问题对则相反,其看起来可能非常相似。这确保了任务的不可简单解决性。
谁是标注者?Curai的医生
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
@misc{mccreery2020effective, title={Effective Transfer Learning for Identifying Similar Questions: Matching User Questions to COVID-19 FAQs}, author={Clara H. McCreery and Namit Katariya and Anitha Kannan and Manish Chablani and Xavier Amatriain}, year={2020}, eprint={2008.13546}, archivePrefix={arXiv}, primaryClass={cs.IR} }
感谢 @tuner007 添加此数据集。