模型:
microsoft/layoutlmv2-large-uncased
多模态(文本+布局/格式+图像)的文档人工智能预训练
LayoutLMv2是LayoutLM的改进版本,使用新的预训练任务来建模文本、布局和图像之间的交互关系,统一在一个多模态框架中。它在各种下游视觉丰富的文档理解任务上明显优于强基线模型,并取得了新的最优结果,包括FUNSD(0.7895 → 0.8420),CORD(0.9493 → 0.9601),SROIE(0.9524 → 0.9781),Kleister-NDA(0.834 → 0.852),RVL-CDIP(0.9443 → 0.9564)和DocVQA(0.7295 → 0.8672)。
LayoutLMv2: Multi-modal Pre-training for Visually-Rich Document Understanding Yang Xu, Yiheng Xu, Tengchao Lv, Lei Cui, Furu Wei, Guoxin Wang, Yijuan Lu, Dinei Florencio, Cha Zhang, Wanxiang Che, Min Zhang, Lidong Zhou, ACL 2021