模型:

microsoft/layoutlmv3-large

英文

LayoutLMv3

Microsoft Document AI | GitHub

模型描述

LayoutLMv3是一个用于文档人工智能的预训练多模态Transformer模型,具有统一的文本和图像掩蔽功能。简单的统一架构和训练目标使得LayoutLMv3成为一个通用的预训练模型。例如,LayoutLMv3可以用于文本中心任务,包括表单理解、票据理解和文档视觉问答,以及图像中心任务,如文档图像分类和文档布局分析。

LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking Yupan Huang,Tengchao Lv,Lei Cui,Yutong Lu,Furu Wei,Preprint 2022.

引用

如果您在研究中使用LayoutLM有所帮助,请引用以下论文:

@inproceedings{huang2022layoutlmv3,
  author={Yupan Huang and Tengchao Lv and Lei Cui and Yutong Lu and Furu Wei},
  title={LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking},
  booktitle={Proceedings of the 30th ACM International Conference on Multimedia},
  year={2022}
}

许可证

本项目内容本身在 Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0) 下许可。部分源代码基于 transformers 项目。 Microsoft Open Source Code of Conduct