OCR-LayoutLMv3

该模型是在funsd-layoutlmv3数据集上经过微调的 microsoft/layoutlmv3-base 的版本。在评估集上实现以下结果:

损失: 0.9788
精确度: 0.8989
召回率: 0.9051
F1值: 0.9020
准确度: 0.8404

模型描述

LayoutLMv3是用于文档AI的预训练多模态Transformer，具有统一的文本和图像遮盖。简单的统一架构和训练目标使LayoutLMv3成为一个通用的预训练模型。例如，LayoutLMv3可以被微调用于以文本为中心的任务，包括表单理解、收据理解和文档视觉问答，以及以图像为中心的任务，如文档图像分类和文档布局分析。

由 LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking Yupan Huang, Tengchao Lv, Lei Cui, Yutong Lu, Furu Wei, 预印本2022。

训练超参数

在训练过程中使用了以下超参数:

学习率: 1e-05
训练批大小: 2
评估批大小: 2
种子: 42
优化器: Adam，betas=(0.9, 0.999)，epsilon=1e-08
lr_scheduler_type: linear
训练步数: 2000

训练结果

Training Loss	Epoch	Step	Validation Loss	Precision	Recall	F1	Accuracy
No log	1.33	100	0.6966	0.7418	0.8063	0.7727	0.7801
No log	2.67	200	0.5767	0.8104	0.8644	0.8365	0.8117
No log	4.0	300	0.5355	0.8246	0.8852	0.8539	0.8295
No log	5.33	400	0.5240	0.8706	0.8922	0.8813	0.8427
0.5326	6.67	500	0.6337	0.8528	0.8778	0.8651	0.8260
0.5326	8.0	600	0.6870	0.8698	0.8828	0.8762	0.8240
0.5326	9.33	700	0.6584	0.8723	0.9061	0.8889	0.8342
0.5326	10.67	800	0.7186	0.8868	0.9031	0.8949	0.8335
0.5326	12.0	900	0.6822	0.9040	0.9076	0.9058	0.8526
0.1248	13.33	1000	0.7042	0.8872	0.9021	0.8946	0.8511
0.1248	14.67	1100	0.7920	0.9027	0.9036	0.9032	0.8480
0.1248	16.0	1200	0.8052	0.8964	0.9151	0.9056	0.8389
0.1248	17.33	1300	0.8932	0.8995	0.9066	0.9030	0.8329
0.1248	18.67	1400	0.8728	0.8950	0.9061	0.9005	0.8398
0.0442	20.0	1500	0.9051	0.8960	0.9116	0.9037	0.8347
0.0442	21.33	1600	0.9587	0.8947	0.9031	0.8989	0.8401
0.0442	22.67	1700	0.9822	0.9042	0.9046	0.9044	0.8389
0.0442	24.0	1800	0.9734	0.9043	0.9061	0.9052	0.8391
0.0442	25.33	1900	0.9842	0.9042	0.9091	0.9066	0.8410
0.0225	26.67	2000	0.9788	0.8989	0.9051	0.9020	0.8404

框架版本

Transformers 4.25.0.dev0
Pytorch 1.12.1
Datasets 2.6.1
Tokenizers 0.13.1

作者:

Tao Jin

数据集大小:

481.42 MB