数据集:

alkzar90/NIH-Chest-X-ray-dataset

英文

NIH胸部 X 光数据集的数据卡片

数据集摘要

NIH胸部X光数据集包含了112,120个前视X光图像,来自30,805位独特患者,具有经过文本挖掘的14种疾病图像标签(每个图像可以具有多个标签),这些标签是通过自然语言处理从相关的放射学报告中挖掘得到的。四十个常见的胸部病理包括肺不张、浓合、浸润、气胸、水肿、肺气肿、纤维化、积液、肺炎、胸膜增厚、心脏肥大、结节、肿块和疝,这是我们CVPR2017论文中列出的8个常见疾病模式的扩展。请注意,出于多种原因,原始的放射学报告(与这些胸部X光研究相关)不适合公开分享。文本挖掘的疾病标签预计具有超过90%的准确性。请在我们的arxiv论文中了解更多关于基于14个疾病标签的训练模型的详细信息和基准性能: 1705.02315

数据集结构

数据实例

下面提供了训练集的一个样本:

{'image_file_path': '/root/.cache/huggingface/datasets/downloads/extracted/95db46f21d556880cf0ecb11d45d5ba0b58fcb113c9a0fff2234eba8f74fe22a/images/00000798_022.png',
 'image': <PIL.PngImagePlugin.PngImageFile image mode=L size=1024x1024 at 0x7F2151B144D0>,
 'labels': [9, 3]}

数据字段

数据实例具有以下字段:

  • image_file_path:一个字符串,表示图像路径
  • image:一个包含图像的PIL.Image.Image对象。注意,当访问图像列时,dataset[0]["image"]会自动解码图像文件。解码大量图像文件可能需要很长时间。因此,最好首先查询样本索引,然后再查询"image"列,即dataset[0]["image"]应始终优先于dataset["image"][0]。
  • labels:一个整数分类标签。类标签映射如下:
json{   "No Finding": 0,   "Atelectasis": 1,   "Cardiomegaly": 2,   "Effusion" 3,   "Infiltration": 4,   "Mass": 5,   "Nodule": 6,   "Pneumonia": 7,   "Pneumothorax": 8,   "Consolidation": 9,   "Edema": 10,   "Emphysema": 11,   "Fibrosis": 12,   "Pleural_Thickening": 13,   "Hernia": 14 }

数据集中的标签分布如下:

labels obs freq
No Finding 60361 0.426468
Infiltration 19894 0.140557
Effusion 13317 0.0940885
Atelectasis 11559 0.0816677
Nodule 6331 0.0447304
Mass 5782 0.0408515
Pneumothorax 5302 0.0374602
Consolidation 4667 0.0329737
Pleural_Thickening 3385 0.023916
Cardiomegaly 2776 0.0196132
Emphysema 2516 0.0177763
Edema 2303 0.0162714
Fibrosis 1686 0.0119121
Pneumonia 1431 0.0101104
Hernia 227 0.00160382

数据拆分

train test
# of examples 86524 25596

数据拆分按标签分布如下:

labels ('Train', 'obs') ('Train', 'freq') ('Test', 'obs') ('Test', 'freq')
No Finding 50500 0.483392 9861 0.266032
Infiltration 13782 0.131923 6112 0.164891
Effusion 8659 0.082885 4658 0.125664
Atelectasis 8280 0.0792572 3279 0.0884614
Nodule 4708 0.0450656 1623 0.0437856
Mass 4034 0.038614 1748 0.0471578
Consolidation 2852 0.0272997 1815 0.0489654
Pneumothorax 2637 0.0252417 2665 0.0718968
Pleural_Thickening 2242 0.0214607 1143 0.0308361
Cardiomegaly 1707 0.0163396 1069 0.0288397
Emphysema 1423 0.0136211 1093 0.0294871
Edema 1378 0.0131904 925 0.0249548
Fibrosis 1251 0.0119747 435 0.0117355
Pneumonia 876 0.00838518 555 0.0149729
Hernia 141 0.00134967 86 0.00232012

数据集创建

策划理由

[需要更多信息]

源数据

初始数据收集和规范化

[需要更多信息]

谁是源语言的生产者?

[需要更多信息]

注释

注释过程

[需要更多信息]

谁是注释者?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据时需考虑的因素

数据集的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

更多信息

数据集策划者

[需要更多信息]

许可和归属

对NIH胸部X光影像没有任何使用限制。然而,数据集有以下归属要求:

引用信息

@inproceedings{Wang_2017,
    doi = {10.1109/cvpr.2017.369},
    url = {https://doi.org/10.1109%2Fcvpr.2017.369},
    year = 2017,
    month = {jul},
    publisher = {{IEEE}
},
    author = {Xiaosong Wang and Yifan Peng and Le Lu and Zhiyong Lu and Mohammadhadi Bagheri and Ronald M. Summers},
    title = {{ChestX}-Ray8: Hospital-Scale Chest X-Ray Database and Benchmarks on Weakly-Supervised Classification and Localization of Common Thorax Diseases},
    booktitle = {2017 {IEEE} Conference on Computer Vision and Pattern Recognition ({CVPR})}
}

贡献者

感谢 @alcazar90 提供了这个数据集。