数据集:

gretelai/symptom_to_diagnosis

英文

数据集概述

此数据集包含用于描述症状的自然语言描述,标记有22种相关的诊断。 Gretel/symptom_to_diagnosis提供了1065个用英语标记的症状描述,对应着22种诊断,重点关注细粒度的单一领域诊断。

数据字段

每一行包含以下字段:

  • input_text:包含症状的字符串字段
  • output_text:包含诊断的字符串字段

示例:

{
"output_text": "drug reaction",
"input_text": "I've been having headaches and migraines, and I can't sleep. My whole body shakes and twitches. Sometimes I feel lightheaded."
}

诊断

该表格包含训练集和测试集中每种诊断的计数。

Diagnosis train.jsonl test.jsonl
0 drug reaction 40 8
1 allergy 40 10
2 chicken pox 40 10
3 diabetes 40 10
4 psoriasis 40 10
5 hypertension 40 10
6 cervical spondylosis 40 10
7 bronchial asthma 40 10
8 varicose veins 40 10
9 malaria 40 10
10 dengue 40 10
11 arthritis 40 10
12 impetigo 40 10
13 fungal infection 39 9
14 common cold 39 10
15 gastroesophageal reflux disease 39 10
16 urinary tract infection 39 9
17 typhoid 38 9
18 pneumonia 37 10
19 peptic ulcer disease 37 10
20 jaundice 33 7
21 migraine 32 10

数据拆分

数据拆分为80%的训练集(853个样本,167kb)和20%的测试集(212个样本,42kb)。

数据集创建

数据经过筛选,排除了不需要的类别,并使用LLM进行更新,以便创建与患者用自然语言向医生描述症状更一致的语言。

源数据

此数据集基于Kaggle的 Symptom2Disease 数据集进行了改编。

个人和敏感信息

此数据集中的症状经过LLM修改,不包含个人数据。

限制

此数据集已获得Apache 2.0许可,可免费使用。