模型:

microsoft/layoutlmv2-base-uncased

英文

LayoutLMv2

Multimodal (text + layout/format + image) pre-training for document AI

The documentation of this model in the Transformers library can be found here .

Microsoft Document AI | GitHub

Introduction

LayoutLMv2是LayoutLM的改进版本,引入了新的预训练任务,以在单个多模态框架中建模文本、布局和图像之间的交互。它在各种下游具有视觉丰富的文档理解任务中优于强基线,并实现了FUNSD(0.7895 → 0.8420)、CORD(0.9493 → 0.9601)、SROIE(0.9524 → 0.9781)、Kleister-NDA(0.834 → 0.852)、RVL-CDIP(0.9443 → 0.9564)和DocVQA(0.7295 → 0.8672)等任务的最新最佳结果。

LayoutLMv2: Multi-modal Pre-training for Visually-Rich Document Understanding 杨旭,徐一恒,吕腾超,崔蕾,魏斧儒,王国新,陆贻娟,迪奈佛伦西奥,张茶,车万祥,张敏,周立东,ACL 2021