英文

long-t5-tglobal-base-sci-simplify

探索在科学论文的“简化摘要”上训练的长文档模型的泛化能力。

简化摘要是一篇研究论文或科学研究的总结,用通俗的语言编写,避免使用专业术语,旨在非专业人士容易理解。

模型描述

该模型是在pszemraj/scientific_lay_summarisation-plos-norm数据集上进行两个时期的fine-tuned google/long-t5-tglobal-base 的版本。

  • 可在ELIFE子集上训练的变体可在 here 找到

用法

建议使用此模型与 beam search decoding 一起使用。如果您有兴趣,还可以使用textsum util存储库,以便为您提供大部分的抽象:

用pip安装:

pip install -U textsum

在python中使用:

from textsum.summarize import Summarizer

summarizer = Summarizer('pszemraj/long-t5-tglobal-base-sci-simplify')
text = "put the text you don't want to read here"
summary = summarizer.summarize_string(text)
print(summary)

预期用途和限制

  • 必须评估在数据集领域之外(pubmed/生物科学类型论文)的泛化能力。

训练过程

评估结果

它在评估集上实现以下结果:

  • 损失:1.6778
  • Rouge1:49.1475
  • Rouge2:18.9281
  • Rougel:26.9893
  • Rougelsum:45.0973
  • Gen Len:399.4125

训练超参数

训练期间使用了以下超参数:

  • 学习率:0.0004
  • train_batch_size:4
  • eval_batch_size:2
  • 种子:42
  • 分布式类型:多GPU
  • 梯度累积步数:16
  • 总训练批量大小:64
  • 优化器:Adam,betas=(0.9,0.999),epsilon=1e-08
  • lr_scheduler_type:余弦
  • lr_scheduler_warmup_ratio:0.01
  • num_epochs:2.0

训练结果

Training Loss Epoch Step Validation Loss Rouge1 Rouge2 Rougel Rougelsum Gen Len
1.966 0.52 200 1.7171 48.6521 18.427 26.7726 44.3947 376.335
1.877 1.03 400 1.6909 49.3263 18.7945 27.0741 45.1737 382.205
1.9007 1.55 600 1.6778 49.1475 18.9281 26.9893 45.0973 399.4125