数据集:
textvqa
任务:
视觉问答语言:
en计算机处理:
monolingual大小:
10K<n<100K语言创建人:
crowdsourced批注创建人:
crowdsourced源数据集:
original许可:
cc-by-4.0TextVQA 要求模型阅读并推理图像中的文本,以回答与图像相关的问题。具体而言,模型需要将图像中的文本作为一种新的模态进行整合,并推理出 TextVQA 问题的答案。TextVQA 数据集包含了来自 OpenImages 数据集的 45,336 个问题和 28,408 张图像。数据集使用 VQA accuracy 度量标准进行评估。
数据集中的问题为英文。
典型的样本主要包含以下字段:问题(question)、图像(object)、OpenImage 图像 id(image_id)以及其他许多有用的元数据。每个问题的答案(answers)属性中包含10个答案。对于测试集,答案字段中包含10个空字符串,因为测试集的答案不可用。
一个示例如下所示:
{'question': 'who is this copyrighted by?', 'image_id': '00685bc495504d61', 'image': <PIL.JpegImagePlugin.JpegImageFile image mode=RGB size=384x512 at 0x276021C5EB8>, 'image_classes': ['Vehicle', 'Tower', 'Airplane', 'Aircraft'], 'flickr_original_url': 'https://farm2.staticflickr.com/5067/5620759429_4ea686e643_o.jpg', 'flickr_300k_url': 'https://c5.staticflickr.com/6/5067/5620759429_f43a649fb5_z.jpg', 'image_width': 786, 'image_height': 1024, 'answers': ['simon clancy', 'simon ciancy', 'simon clancy', 'simon clancy', 'the brand is bayard', 'simon clancy', 'simon clancy', 'simon clancy', 'simon clancy', 'simon clancy'], 'question_tokens': ['who', 'is', 'this', 'copyrighted', 'by'], 'question_id': 3, 'set_name': 'train' },
数据集分为三个部分:训练集(train)、验证集(validation)和测试集(test)。训练集和验证集与 OpenImages 的训练集共享图像,并且其答案可用。对于测试集的答案,我们返回一个由十个空字符串组成的列表。要获得关于测试集的推理结果和指标,您需要转到 EvalAI leaderboard ,并在那里上传您的预测结果。 请参考 https://textvqa.org/challenge/ 的说明。
来自论文:
研究表明,视力受损的用户在其周围的图像上提出的主要问题类别涉及阅读图像中的文本。但是现在的 VQA 模型无法阅读! 我们的论文是解决这个问题的第一步。首先,我们引入了一个名为“TextVQA”的新数据集,以促进解决这个重要问题的进展。现有的数据集要么只关于文本的问题比例很小(例如,VQA 数据集),要么太小(例如,VizWiz 数据集)。TextVQA 包含了 45,336 个问题和 28,408 张图像,要求使用推理来回答这些问题。
初始图像来自 OpenImages v4 数据集。首先使用 OCR 系统基于自动启发式方法过滤图像,只选择至少包含一些文本的图像。请参阅注释过程部分,了解后续阶段的详细信息。
谁是源语言的生产者?英文众包注释者
在自动过滤包含文本的图像的过程之后,使用人工注释员手动验证了这些图像,确保它们含有文本。在接下来的阶段中,要求注释员为图像编写涉及场景文本的问题。对于部分图像,在这个阶段收集了两个问题,如果可能的话。最后,在最后一个阶段,由十个不同的人类注释员回答了上一阶段提出的问题。
谁是注释者?注释者来自 AMT 等主要的数据收集平台之一。论文中没有详细说明。
数据集与 OpenImages 存在类似的个人身份信息问题,有时可能包含人脸、车牌和文件。使用提供的 image_classes 数据字段是一种尝试过滤其中一些信息的方法。
该论文认识到了场景文本识别和推理在通用机器学习应用中的重要性,引发了许多后续工作,包括 TextCaps 和 TextOCR 等。随着时间的推移,引入了专门侧重于视觉障碍用户的类似数据集,如 VizWiz ,以及专门侧重于 TextVQA 问题的数据集,如 STVQA , DocVQA 和 OCRVQA 。目前,大多数方法使用 TextVQA 和 STVQA 的组合数据集进行训练,以实现两个数据集上的最新性能。
论文中讨论了只凭问题就能回答问题的偏见,这是原始 VQA 数据集的一个主要问题。采集 10 个不同的答案可以避免答案的离群值偏见,并且在评估指标中也会考虑到这些答案。
CC by 4.0
@inproceedings{singh2019towards, title={Towards VQA Models That Can Read}, author={Singh, Amanpreet and Natarjan, Vivek and Shah, Meet and Jiang, Yu and Chen, Xinlei and Batra, Dhruv and Parikh, Devi and Rohrbach, Marcus}, booktitle={Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition}, pages={8317-8326}, year={2019} }
感谢 @apsdehal 添加了此数据集。