模型:

pierreguillou/lilt-xlm-roberta-base-finetuned-with-DocLayNet-base-at-linelevel-ml384

任务:

标记分类

类库:

PyTorch TensorBoard Transformers

数据集:

pierreguillou/DocLayNet-base 3Apierreguillou/DocLayNet-base

语言:

multilingual

其他:

lilt 目标检测 vision generated_from_trainer DocLayNet COCO PDF IBM Financial-Reports Finance Manuals Scientific-Articles Science Laws Law Regulations Patents Government-Tenders 图像分割 Eval Results AutoTrain Compatible

预印本库:

arxiv:2206.01062

许可:

mit

模型介绍文件清单

英文

文档理解模型（在DocLayNet基础上对LiLT基础模型进行了基于行级的微调）

此模型是使用 DocLayNet base 数据集对 nielsr/lilt-xlm-roberta-base 进行微调的版本。在评估集上实现以下结果：

损失：1.0003
精确度：0.8584
召回率：0.8584
F1分数：0.8584
标记准确率：0.8584
行准确率：0.9197

行级别准确率

行准确率：91.97%
标签的准确率
- 标题：79.42%
- 脚注：68.21%
- 公式：98.02%
- 列表项：82.72%
- 页脚：99.17%
- 页眉：84.18%
- 图片：83.2%
- 节标题：76.92%
- 表格：97.65%
- 文本：91.17%
- 标题：77.46%

参考资料

应用程序

您可以在Hugging Face Spaces的此应用程序中测试此模型。

DocLayNet数据集

DocLayNet dataset （IBM）提供由边界框定义的11个不同类别标签的80863个唯一页面的页面布局分割基准。

目前，可以通过直接链接或作为Hugging Face数据集下载该数据集：

直接链接： doclaynet_core.zip （28 GiB）， doclaynet_extra.zip （7.5 GiB）
Hugging Face 数据集库： dataset DocLayNet

论文： DocLayNet: A Large Human-Annotated Dataset for Document-Layout Analysis （06/02/2022）

模型描述

该模型在每行384个标记的块上进行微调，重叠为128个标记。因此，模型使用数据集的所有布局和文本数据进行训练。

推理时，通过计算最佳概率为每行边界框分配标签。

推理

请查看笔记本： Document AI | Inference at line level with a Document Understanding model (LiLT fine-tuned on DocLayNet dataset)

训练和评估数据

请查看笔记本： Document AI | Fine-tune LiLT on DocLayNet base in any language at line level (chunk of 384 tokens with overlap)

训练过程

训练超参数

在训练期间使用了以下超参数：

学习率：5e-05
训练批次大小：8
评估批次大小：16
种子：42
优化器：Adam，beta=(0.9, 0.999)，epsilon=1e-08
lr_scheduler_type：线性
训练轮数：5
混合精度训练：本地 AMP

训练结果

Training Loss	Epoch	Step	Validation Loss	Precision	Recall	F1	Accuracy
0.7223	0.21	500	0.7765	0.7741	0.7741	0.7741	0.7741
0.4469	0.42	1000	0.5914	0.8312	0.8312	0.8312	0.8312
0.3819	0.62	1500	0.8745	0.8102	0.8102	0.8102	0.8102
0.3361	0.83	2000	0.6991	0.8337	0.8337	0.8337	0.8337
0.2784	1.04	2500	0.7513	0.8119	0.8119	0.8119	0.8119
0.2377	1.25	3000	0.9048	0.8166	0.8166	0.8166	0.8166
0.2401	1.45	3500	1.2411	0.7939	0.7939	0.7939	0.7939
0.2054	1.66	4000	1.1594	0.8080	0.8080	0.8080	0.8080
0.1909	1.87	4500	0.7545	0.8425	0.8425	0.8425	0.8425
0.1704	2.08	5000	0.8567	0.8318	0.8318	0.8318	0.8318
0.1294	2.29	5500	0.8486	0.8489	0.8489	0.8489	0.8489
0.134	2.49	6000	0.7682	0.8573	0.8573	0.8573	0.8573
0.1354	2.7	6500	0.9871	0.8256	0.8256	0.8256	0.8256
0.1239	2.91	7000	1.1430	0.8189	0.8189	0.8189	0.8189
0.1012	3.12	7500	0.8272	0.8386	0.8386	0.8386	0.8386
0.0788	3.32	8000	1.0288	0.8365	0.8365	0.8365	0.8365
0.0802	3.53	8500	0.7197	0.8849	0.8849	0.8849	0.8849
0.0861	3.74	9000	1.1420	0.8320	0.8320	0.8320	0.8320
0.0639	3.95	9500	0.9563	0.8585	0.8585	0.8585	0.8585
0.0464	4.15	10000	1.0768	0.8511	0.8511	0.8511	0.8511
0.0412	4.36	10500	1.1184	0.8439	0.8439	0.8439	0.8439
0.039	4.57	11000	0.9634	0.8636	0.8636	0.8636	0.8636
0.0469	4.78	11500	0.9585	0.8634	0.8634	0.8634	0.8634
0.0395	4.99	12000	1.0003	0.8584	0.8584	0.8584	0.8584

框架版本

Transformers 4.26.0
PyTorch 1.13.1+cu116
Datasets 2.9.0
Tokenizers 0.13.2

其他模型

行级别
- Document Understanding model (finetuned LiLT base at line level on DocLayNet base) （准确率 | 标记：85.84% - 行：91.97%）
- Document Understanding model (finetuned LayoutXLM base at line level on DocLayNet base) （准确率 | 标记：93.73% - 行：...）
段落级别
- Document Understanding model (finetuned LiLT base at paragraph level on DocLayNet base) （准确率 | 标记：86.34% - 段落：68.15%）
- Document Understanding model (finetuned LayoutXLM base at paragraph level on DocLayNet base) （准确率 | 标记：96.93% - 段落：86.55%）

作者:

Pierre Guillou

数据集大小:

7.44 GB