数据集:
gretelai/symptom_to_diagnosis
此数据集包含用于描述症状的自然语言描述,标记有22种相关的诊断。 Gretel/symptom_to_diagnosis提供了1065个用英语标记的症状描述,对应着22种诊断,重点关注细粒度的单一领域诊断。
每一行包含以下字段:
示例:
{ "output_text": "drug reaction", "input_text": "I've been having headaches and migraines, and I can't sleep. My whole body shakes and twitches. Sometimes I feel lightheaded." }
该表格包含训练集和测试集中每种诊断的计数。
Diagnosis | train.jsonl | test.jsonl | |
---|---|---|---|
0 | drug reaction | 40 | 8 |
1 | allergy | 40 | 10 |
2 | chicken pox | 40 | 10 |
3 | diabetes | 40 | 10 |
4 | psoriasis | 40 | 10 |
5 | hypertension | 40 | 10 |
6 | cervical spondylosis | 40 | 10 |
7 | bronchial asthma | 40 | 10 |
8 | varicose veins | 40 | 10 |
9 | malaria | 40 | 10 |
10 | dengue | 40 | 10 |
11 | arthritis | 40 | 10 |
12 | impetigo | 40 | 10 |
13 | fungal infection | 39 | 9 |
14 | common cold | 39 | 10 |
15 | gastroesophageal reflux disease | 39 | 10 |
16 | urinary tract infection | 39 | 9 |
17 | typhoid | 38 | 9 |
18 | pneumonia | 37 | 10 |
19 | peptic ulcer disease | 37 | 10 |
20 | jaundice | 33 | 7 |
21 | migraine | 32 | 10 |
数据拆分为80%的训练集(853个样本,167kb)和20%的测试集(212个样本,42kb)。
数据经过筛选,排除了不需要的类别,并使用LLM进行更新,以便创建与患者用自然语言向医生描述症状更一致的语言。
此数据集基于Kaggle的 Symptom2Disease 数据集进行了改编。
此数据集中的症状经过LLM修改,不包含个人数据。
此数据集已获得Apache 2.0许可,可免费使用。