数据集:

flaviagiammarino/path-vqa

语言:

en

大小:

10K<n<100K

预印本库:

arxiv:2003.10286

其他:

medical

许可:

mit
英文

PathVQA 数据集卡片

数据集描述

PathVQA 是一个关于病理图像的问题-回答数据集。该数据集旨在用于训练和测试医学视觉问答(VQA)系统。数据集包括开放式问题和二元的“是/否”问题。该数据集是从两本公开可得的病理学教科书《病理学教科书》和《基础病理学》以及一个公开可得的数字图书馆《病理教育信息资源》(PEIR)构建而成。图像和标题的版权属于这两本书的出版商和作者,以及PEIR数字图书馆的所有者。

存储库: PathVQA Official GitHub Repository 文章: PathVQA: 30000+ Questions for Medical Visual Question Answering 排行榜: Papers with Code Leaderboard

数据集摘要

该数据集是从2023年2月15日作者分享的更新的Google Drive链接中获取的,可参见GitHub存储库中的 commit 。该数据集的此版本总共包含5,004个图像和32,795个问题-回答对。其中,4,289个图像与某个问题-回答对相关联,而715个图像未被使用。在某些分割(训练、验证、测试)中会有一些出现多次的图像-问题-回答三元组。在删除重复的图像-问题-回答三元组后,数据集包含4,289个图像上的32,632个问题-回答对。

支持的任务和排行榜

PathVQA 数据集在 Papers with Code 上有一个活跃的排行榜,模型根据三个指标进行排名:“是/否准确度”,“自由形式准确度”和“总体准确度”。 “是/否准确度”是模型对二元“是/否”问题子集生成答案的准确度。“自由形式准确度”是模型对开放式问题子集生成答案的准确度。“总体准确度”是模型对所有问题生成答案的准确度。

语言

问题-回答对使用英文。

数据集结构

数据实例

每个实例由图像-问题-回答三元组组成。

{
  'image': <PIL.JpegImagePlugin.JpegImageFile image mode=CMYK size=309x272>,
  'question': 'where are liver stem cells (oval cells) located?',
  'answer': 'in the canals of hering'
}

数据字段

  • 'image':问题-回答对所引用的图像。
  • 'question':关于图像的问题。
  • 'answer':期望的回答。

数据拆分

该数据集被拆分为训练集、验证集和测试集。拆分由作者直接提供。

Training Set Validation Set Test Set
QAs 19,654 6,259 6,719
Images 2,599 832 858

附加信息

授权信息

作者已根据 MIT License 发布了该数据集。

引用信息

@article{he2020pathvqa,
    title={PathVQA: 30000+ Questions for Medical Visual Question Answering},
    author={He, Xuehai and Zhang, Yichen and Mou, Luntian and Xing, Eric and Xie, Pengtao},
    journal={arXiv preprint arXiv:2003.10286},
    year={2020}
}