PathVQA 数据集卡片

数据集描述

PathVQA 是一个关于病理图像的问题-回答数据集。该数据集旨在用于训练和测试医学视觉问答（VQA）系统。数据集包括开放式问题和二元的“是/否”问题。该数据集是从两本公开可得的病理学教科书《病理学教科书》和《基础病理学》以及一个公开可得的数字图书馆《病理教育信息资源》（PEIR）构建而成。图像和标题的版权属于这两本书的出版商和作者，以及PEIR数字图书馆的所有者。

存储库： PathVQA Official GitHub Repository 文章： PathVQA: 30000+ Questions for Medical Visual Question Answering 排行榜： Papers with Code Leaderboard

数据集摘要

该数据集是从2023年2月15日作者分享的更新的Google Drive链接中获取的，可参见GitHub存储库中的 commit 。该数据集的此版本总共包含5,004个图像和32,795个问题-回答对。其中，4,289个图像与某个问题-回答对相关联，而715个图像未被使用。在某些分割（训练、验证、测试）中会有一些出现多次的图像-问题-回答三元组。在删除重复的图像-问题-回答三元组后，数据集包含4,289个图像上的32,632个问题-回答对。

支持的任务和排行榜

PathVQA 数据集在 Papers with Code 上有一个活跃的排行榜，模型根据三个指标进行排名：“是/否准确度”，“自由形式准确度”和“总体准确度”。 “是/否准确度”是模型对二元“是/否”问题子集生成答案的准确度。“自由形式准确度”是模型对开放式问题子集生成答案的准确度。“总体准确度”是模型对所有问题生成答案的准确度。

语言

问题-回答对使用英文。

数据集结构

数据实例

每个实例由图像-问题-回答三元组组成。

{
  'image': <PIL.JpegImagePlugin.JpegImageFile image mode=CMYK size=309x272>,
  'question': 'where are liver stem cells (oval cells) located?',
  'answer': 'in the canals of hering'
}

数据字段

'image'：问题-回答对所引用的图像。
'question'：关于图像的问题。
'answer'：期望的回答。

数据拆分

该数据集被拆分为训练集、验证集和测试集。拆分由作者直接提供。

Training Set	Validation Set	Test Set
QAs	19,654	6,259	6,719
Images	2,599	832	858

附加信息

授权信息

作者已根据 MIT License 发布了该数据集。

引用信息

@article{he2020pathvqa,
    title={PathVQA: 30000+ Questions for Medical Visual Question Answering},
    author={He, Xuehai and Zhang, Yichen and Mou, Luntian and Xing, Eric and Xie, Pengtao},
    journal={arXiv preprint arXiv:2003.10286},
    year={2020}
}

作者:

flaviagiammarino

数据集大小:

749.04 MB