神经网络在自动诊断色素性皮肤病变方面的训练受限于现有皮肤镜图像数据集的规模小和多样性不足。为解决这个问题,我们发布了HAM10000("通过1万个训练图像进行人机对抗")数据集。我们收集了来自不同人群的、通过不同方式获取和储存的皮肤镜图像。最终数据集包括10015张皮肤镜图像,可作为用于学术机器学习目的的训练集。这些病例包括了色素性病变领域所有重要的诊断类别的代表性集合:角化病变和上皮内癌/鲍文氏病(akiec)、基底细胞癌(bcc)、良性角化样病变(太阳性黑色素痣/脂溢性角化病变和扁平苔藓样角化病变,bkl)、皮肤纤维瘤(df)、黑色素瘤(mel)、黑素细胞痣(nv)和血管病变(血管瘤、血管角化病,化脓性肉芽肿和出血,vasc)。
超过50%的病变经过组织病理学证实(histo),其余病例的真实情况通过随访检查(follow_up)、专家共识(consensus)或活体共聚焦显微镜确认(confocal)。
测试集不对外公开,但评估服务器仍在运行(请参阅挑战网站)。使用HAM10000数据编写的任何文章应在那里托管的官方测试集上进行评估,以便可以进行公正的方法比较。
这是为了Image Data在哈芬脸上开放数据的贡献。可以从上述链接获取图像。
使用癌症/诊断类型进行分层切分。可以从我的github上获取用于分层数据集的代码 here .
我不拥有上述图像的任何权利。