数据集:

textvqa

语言:

en

计算机处理:

monolingual

大小:

10K<n<100K

语言创建人:

crowdsourced

批注创建人:

crowdsourced

源数据集:

original

许可:

cc-by-4.0
英文

TextVQA 数据集卡片

数据集概述

TextVQA 要求模型阅读并推理图像中的文本,以回答与图像相关的问题。具体而言,模型需要将图像中的文本作为一种新的模态进行整合,并推理出 TextVQA 问题的答案。TextVQA 数据集包含了来自 OpenImages 数据集的 45,336 个问题和 28,408 张图像。数据集使用 VQA accuracy 度量标准进行评估。

支持的任务和排行榜

  • visual-question-answering: 该数据集可以用于视觉问答任务,即根据给定的图像回答问题。对于 TextVQA 数据集而言,这些问题要求阅读并推理图像中的场景文本。

语言

数据集中的问题为英文。

数据集结构

数据实例

典型的样本主要包含以下字段:问题(question)、图像(object)、OpenImage 图像 id(image_id)以及其他许多有用的元数据。每个问题的答案(answers)属性中包含10个答案。对于测试集,答案字段中包含10个空字符串,因为测试集的答案不可用。

一个示例如下所示:

  {'question': 'who is this copyrighted by?',
   'image_id': '00685bc495504d61',
   'image': <PIL.JpegImagePlugin.JpegImageFile image mode=RGB size=384x512 at 0x276021C5EB8>,
   'image_classes': ['Vehicle', 'Tower', 'Airplane', 'Aircraft'],
   'flickr_original_url': 'https://farm2.staticflickr.com/5067/5620759429_4ea686e643_o.jpg',
   'flickr_300k_url': 'https://c5.staticflickr.com/6/5067/5620759429_f43a649fb5_z.jpg',
   'image_width': 786,
   'image_height': 1024,
   'answers': ['simon clancy',
    'simon ciancy',
    'simon clancy',
    'simon clancy',
    'the brand is bayard',
    'simon clancy',
    'simon clancy',
    'simon clancy',
    'simon clancy',
    'simon clancy'],
   'question_tokens': ['who', 'is', 'this', 'copyrighted', 'by'],
   'question_id': 3,
   'set_name': 'train'
  },

数据字段

  • question: 字符串,关于图像被问到的问题
  • image_id: 字符串,图像的 id,与 OpenImages id 相同
  • image: 一个包含被询问的图像的 PIL.Image.Image 对象。注意,当访问图像列时: dataset[0]["image"] ,图像文件会被自动解码。解码大量的图像文件可能需要相当长的时间。因此,在访问 "image" 列之前,最好先查询样本索引,即 dataset[0]["image"] 应始终优先于 dataset["image"][0]。
  • image_classes: 字符串列表,图像属于的 OpenImages 类别。
  • flickr_original_url: 字符串,Flickr 上原始图像的 URL。
  • flickr_300k_url: 字符串,Flickr 上缩小并降低分辨率的图像的 URL。
  • image_width: 整型,原始图像的宽度。
  • image_height: 整型,原始图像的高度。
  • question_tokens: 字符串列表,预分词的问题列表。
  • answers: 字符串列表,问题的10个人工注释答案。这10个答案来自10个不同的用户。对于测试集,列表中将包含空字符串,因为我们没有这些问题的答案。
  • question_id: 整型,问题的唯一 ID。
  • set_name: 字符串,此问题所属的集合。

数据拆分

数据集分为三个部分:训练集(train)、验证集(validation)和测试集(test)。训练集和验证集与 OpenImages 的训练集共享图像,并且其答案可用。对于测试集的答案,我们返回一个由十个空字符串组成的列表。要获得关于测试集的推理结果和指标,您需要转到 EvalAI leaderboard ,并在那里上传您的预测结果。 请参考 https://textvqa.org/challenge/ 的说明。

数据集创建

策划理由

来自论文:

研究表明,视力受损的用户在其周围的图像上提出的主要问题类别涉及阅读图像中的文本。但是现在的 VQA 模型无法阅读! 我们的论文是解决这个问题的第一步。首先,我们引入了一个名为“TextVQA”的新数据集,以促进解决这个重要问题的进展。现有的数据集要么只关于文本的问题比例很小(例如,VQA 数据集),要么太小(例如,VizWiz 数据集)。TextVQA 包含了 45,336 个问题和 28,408 张图像,要求使用推理来回答这些问题。

数据源

初始化数据收集和规范化

初始图像来自 OpenImages v4 数据集。首先使用 OCR 系统基于自动启发式方法过滤图像,只选择至少包含一些文本的图像。请参阅注释过程部分,了解后续阶段的详细信息。

谁是源语言的生产者?

英文众包注释者

注释

注释过程后的

在自动过滤包含文本的图像的过程之后,使用人工注释员手动验证了这些图像,确保它们含有文本。在接下来的阶段中,要求注释员为图像编写涉及场景文本的问题。对于部分图像,在这个阶段收集了两个问题,如果可能的话。最后,在最后一个阶段,由十个不同的人类注释员回答了上一阶段提出的问题。

谁是注释者?

注释者来自 AMT 等主要的数据收集平台之一。论文中没有详细说明。

个人和敏感信息

数据集与 OpenImages 存在类似的个人身份信息问题,有时可能包含人脸、车牌和文件。使用提供的 image_classes 数据字段是一种尝试过滤其中一些信息的方法。

使用数据的注意事项

数据集的社会影响

该论文认识到了场景文本识别和推理在通用机器学习应用中的重要性,引发了许多后续工作,包括 TextCaps TextOCR 等。随着时间的推移,引入了专门侧重于视觉障碍用户的类似数据集,如 VizWiz ,以及专门侧重于 TextVQA 问题的数据集,如 STVQA DocVQA OCRVQA 。目前,大多数方法使用 TextVQA 和 STVQA 的组合数据集进行训练,以实现两个数据集上的最新性能。

偏见讨论

论文中讨论了只凭问题就能回答问题的偏见,这是原始 VQA 数据集的一个主要问题。采集 10 个不同的答案可以避免答案的离群值偏见,并且在评估指标中也会考虑到这些答案。

其他已知限制

  • 数据集仅支持英文,但涉及包含非英文拉丁字符的图像:因此可能涉及一些多语言理解。
  • 数据集的性能还取决于所使用的 OCR 的质量,因为 OCR 错误可能直接导致错误的答案。
  • 用于计算准确性的指标与 VQA accuracy 相同。这涉及与给定答案进行一对一匹配,因此不允许通过 OCR 分析一次性错误。

其他信息

数据集策划者

  • Amanpreet Singh
  • Vivek Natarjan
  • Meet Shah
  • Yu Jiang
  • Xinlei Chen
  • Dhruv Batra
  • Devi Parikh
  • Marcus Rohrbach

许可信息

CC by 4.0

引用信息

@inproceedings{singh2019towards,
    title={Towards VQA Models That Can Read},
    author={Singh, Amanpreet and Natarjan, Vivek and Shah, Meet and Jiang, Yu and Chen, Xinlei and Batra, Dhruv and Parikh, Devi and Rohrbach, Marcus},
    booktitle={Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition},
    pages={8317-8326},
    year={2019}
}

贡献

感谢 @apsdehal 添加了此数据集。