英文

Hi-VT5基于MP-DocVQA数据集进行微调

这是在Multipage DocVQA(MP-DocVQA)数据集上微调的分层视觉T5(Hi-VT5)基础模型。

此模型是在 Hierarchical multimodal transformers for Multi-Page DocVQA 中提出的。

  • MP-DocVQA数据集的结果在表2中报告。
  • 训练超参数可以在附录D的表8中找到。

免责声明:由于某些问题,该模型的效果不如论文中报道的那么好。请参阅 project Github 了解更多详情。

如何使用

Hi-VT5尚未集成到HF中。请从 Github repository 下载代码并按照说明进行操作。

指标

平均标准化Levenshtein相似度(ANLS)

文本型VQA任务(ST-VQA和DocVQA)的标准评估方法。它评估了方法的推理能力,并平滑地惩罚OCR识别错误。详细信息请参阅 Scene Text Visual Question Answering

答案页预测准确率(APPA)

在MP-DocVQA任务中,模型可以提供包含回答问题所需信息的页面的索引。对于这个子任务,使用准确率来评估预测结果:即预测的页面是否正确。详细信息请参阅 Hierarchical multimodal transformers for Multi-Page DocVQA

模型结果

表2中详细说明了扩展实验。您还可以在 RRC Portal 上查看实时排行榜。

Model HF name Parameters ANLS APPA
1238321 rubentito/bert-large-mpdocvqa 334M 0.4183 51.6177
1239321 rubentito/longformer-base-mpdocvqa 148M 0.5287 71.1696
12310321 rubentito/bigbird-base-itc-mpdocvqa 131M 0.4929 67.5433
12311321 rubentito/layoutlmv3-base-mpdocvqa 125M 0.4538 51.9426
12312321 rubentito/t5-base-mpdocvqa 223M 0.5050 0.0000
12313321 rubentito/hivt5-base-mpdocvqa 316M 0.6201 79.23

引用信息

@article{tito2022hierarchical,
  title={Hierarchical multimodal transformers for Multi-Page DocVQA},
  author={Tito, Rub{\`e}n and Karatzas, Dimosthenis and Valveny, Ernest},
  journal={arXiv preprint arXiv:2212.05935},
  year={2022}
}