英文

文档理解模型(在DocLayNet基础上对LiLT基础模型进行了基于行级的微调)

此模型是使用 DocLayNet base 数据集对 nielsr/lilt-xlm-roberta-base 进行微调的版本。在评估集上实现以下结果:

  • 损失:1.0003
  • 精确度:0.8584
  • 召回率:0.8584
  • F1分数:0.8584
  • 标记准确率:0.8584
  • 行准确率:0.9197

行级别准确率

  • 行准确率:91.97%
  • 标签的准确率
    • 标题:79.42%
    • 脚注:68.21%
    • 公式:98.02%
    • 列表项:82.72%
    • 页脚:99.17%
    • 页眉:84.18%
    • 图片:83.2%
    • 节标题:76.92%
    • 表格:97.65%
    • 文本:91.17%
    • 标题:77.46%

参考资料

博客文章

笔记本(段落级别)

笔记本(行级别)

应用程序

您可以在Hugging Face Spaces的此应用程序中测试此模型。

DocLayNet数据集

DocLayNet dataset (IBM)提供由边界框定义的11个不同类别标签的80863个唯一页面的页面布局分割基准。

目前,可以通过直接链接或作为Hugging Face数据集下载该数据集:

论文: DocLayNet: A Large Human-Annotated Dataset for Document-Layout Analysis (06/02/2022)

模型描述

该模型在每行384个标记的块上进行微调,重叠为128个标记。因此,模型使用数据集的所有布局和文本数据进行训练。

推理时,通过计算最佳概率为每行边界框分配标签。

推理

请查看笔记本: Document AI | Inference at line level with a Document Understanding model (LiLT fine-tuned on DocLayNet dataset)

训练和评估数据

请查看笔记本: Document AI | Fine-tune LiLT on DocLayNet base in any language at line level (chunk of 384 tokens with overlap)

训练过程

训练超参数

在训练期间使用了以下超参数:

  • 学习率:5e-05
  • 训练批次大小:8
  • 评估批次大小:16
  • 种子:42
  • 优化器:Adam,beta=(0.9, 0.999),epsilon=1e-08
  • lr_scheduler_type:线性
  • 训练轮数:5
  • 混合精度训练:本地 AMP

训练结果

Training Loss Epoch Step Validation Loss Precision Recall F1 Accuracy
0.7223 0.21 500 0.7765 0.7741 0.7741 0.7741 0.7741
0.4469 0.42 1000 0.5914 0.8312 0.8312 0.8312 0.8312
0.3819 0.62 1500 0.8745 0.8102 0.8102 0.8102 0.8102
0.3361 0.83 2000 0.6991 0.8337 0.8337 0.8337 0.8337
0.2784 1.04 2500 0.7513 0.8119 0.8119 0.8119 0.8119
0.2377 1.25 3000 0.9048 0.8166 0.8166 0.8166 0.8166
0.2401 1.45 3500 1.2411 0.7939 0.7939 0.7939 0.7939
0.2054 1.66 4000 1.1594 0.8080 0.8080 0.8080 0.8080
0.1909 1.87 4500 0.7545 0.8425 0.8425 0.8425 0.8425
0.1704 2.08 5000 0.8567 0.8318 0.8318 0.8318 0.8318
0.1294 2.29 5500 0.8486 0.8489 0.8489 0.8489 0.8489
0.134 2.49 6000 0.7682 0.8573 0.8573 0.8573 0.8573
0.1354 2.7 6500 0.9871 0.8256 0.8256 0.8256 0.8256
0.1239 2.91 7000 1.1430 0.8189 0.8189 0.8189 0.8189
0.1012 3.12 7500 0.8272 0.8386 0.8386 0.8386 0.8386
0.0788 3.32 8000 1.0288 0.8365 0.8365 0.8365 0.8365
0.0802 3.53 8500 0.7197 0.8849 0.8849 0.8849 0.8849
0.0861 3.74 9000 1.1420 0.8320 0.8320 0.8320 0.8320
0.0639 3.95 9500 0.9563 0.8585 0.8585 0.8585 0.8585
0.0464 4.15 10000 1.0768 0.8511 0.8511 0.8511 0.8511
0.0412 4.36 10500 1.1184 0.8439 0.8439 0.8439 0.8439
0.039 4.57 11000 0.9634 0.8636 0.8636 0.8636 0.8636
0.0469 4.78 11500 0.9585 0.8634 0.8634 0.8634 0.8634
0.0395 4.99 12000 1.0003 0.8584 0.8584 0.8584 0.8584

框架版本

  • Transformers 4.26.0
  • PyTorch 1.13.1+cu116
  • Datasets 2.9.0
  • Tokenizers 0.13.2

其他模型