数据集:
alkzar90/NIH-Chest-X-ray-dataset
NIH胸部X光数据集包含了112,120个前视X光图像,来自30,805位独特患者,具有经过文本挖掘的14种疾病图像标签(每个图像可以具有多个标签),这些标签是通过自然语言处理从相关的放射学报告中挖掘得到的。四十个常见的胸部病理包括肺不张、浓合、浸润、气胸、水肿、肺气肿、纤维化、积液、肺炎、胸膜增厚、心脏肥大、结节、肿块和疝,这是我们CVPR2017论文中列出的8个常见疾病模式的扩展。请注意,出于多种原因,原始的放射学报告(与这些胸部X光研究相关)不适合公开分享。文本挖掘的疾病标签预计具有超过90%的准确性。请在我们的arxiv论文中了解更多关于基于14个疾病标签的训练模型的详细信息和基准性能: 1705.02315
下面提供了训练集的一个样本:
{'image_file_path': '/root/.cache/huggingface/datasets/downloads/extracted/95db46f21d556880cf0ecb11d45d5ba0b58fcb113c9a0fff2234eba8f74fe22a/images/00000798_022.png', 'image': <PIL.PngImagePlugin.PngImageFile image mode=L size=1024x1024 at 0x7F2151B144D0>, 'labels': [9, 3]}
数据实例具有以下字段:
json{ "No Finding": 0, "Atelectasis": 1, "Cardiomegaly": 2, "Effusion" 3, "Infiltration": 4, "Mass": 5, "Nodule": 6, "Pneumonia": 7, "Pneumothorax": 8, "Consolidation": 9, "Edema": 10, "Emphysema": 11, "Fibrosis": 12, "Pleural_Thickening": 13, "Hernia": 14 }
数据集中的标签分布如下:
labels | obs | freq |
---|---|---|
No Finding | 60361 | 0.426468 |
Infiltration | 19894 | 0.140557 |
Effusion | 13317 | 0.0940885 |
Atelectasis | 11559 | 0.0816677 |
Nodule | 6331 | 0.0447304 |
Mass | 5782 | 0.0408515 |
Pneumothorax | 5302 | 0.0374602 |
Consolidation | 4667 | 0.0329737 |
Pleural_Thickening | 3385 | 0.023916 |
Cardiomegaly | 2776 | 0.0196132 |
Emphysema | 2516 | 0.0177763 |
Edema | 2303 | 0.0162714 |
Fibrosis | 1686 | 0.0119121 |
Pneumonia | 1431 | 0.0101104 |
Hernia | 227 | 0.00160382 |
train | test | |
---|---|---|
# of examples | 86524 | 25596 |
数据拆分按标签分布如下:
labels | ('Train', 'obs') | ('Train', 'freq') | ('Test', 'obs') | ('Test', 'freq') |
---|---|---|---|---|
No Finding | 50500 | 0.483392 | 9861 | 0.266032 |
Infiltration | 13782 | 0.131923 | 6112 | 0.164891 |
Effusion | 8659 | 0.082885 | 4658 | 0.125664 |
Atelectasis | 8280 | 0.0792572 | 3279 | 0.0884614 |
Nodule | 4708 | 0.0450656 | 1623 | 0.0437856 |
Mass | 4034 | 0.038614 | 1748 | 0.0471578 |
Consolidation | 2852 | 0.0272997 | 1815 | 0.0489654 |
Pneumothorax | 2637 | 0.0252417 | 2665 | 0.0718968 |
Pleural_Thickening | 2242 | 0.0214607 | 1143 | 0.0308361 |
Cardiomegaly | 1707 | 0.0163396 | 1069 | 0.0288397 |
Emphysema | 1423 | 0.0136211 | 1093 | 0.0294871 |
Edema | 1378 | 0.0131904 | 925 | 0.0249548 |
Fibrosis | 1251 | 0.0119747 | 435 | 0.0117355 |
Pneumonia | 876 | 0.00838518 | 555 | 0.0149729 |
Hernia | 141 | 0.00134967 | 86 | 0.00232012 |
[需要更多信息]
[需要更多信息]
谁是源语言的生产者?[需要更多信息]
[需要更多信息]
谁是注释者?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
对NIH胸部X光影像没有任何使用限制。然而,数据集有以下归属要求:
@inproceedings{Wang_2017, doi = {10.1109/cvpr.2017.369}, url = {https://doi.org/10.1109%2Fcvpr.2017.369}, year = 2017, month = {jul}, publisher = {{IEEE} }, author = {Xiaosong Wang and Yifan Peng and Le Lu and Zhiyong Lu and Mohammadhadi Bagheri and Ronald M. Summers}, title = {{ChestX}-Ray8: Hospital-Scale Chest X-Ray Database and Benchmarks on Weakly-Supervised Classification and Localization of Common Thorax Diseases}, booktitle = {2017 {IEEE} Conference on Computer Vision and Pattern Recognition ({CVPR})} }
感谢 @alcazar90 提供了这个数据集。