英文

long-t5-tglobal-base-16384-booksci-summary: v1

一个实验,通过对从booksum检查点开始的不同数据集进行微调来研究迁移学习能力。

模型详情

这个模型是基于数据集pszemraj/scientific_lay_summarisation-elife-norm对 pszemraj/long-t5-tglobal-base-16384-book-summary 进行两个时期的微调版本。

使用方法

建议与 beam search decoding 一起使用此模型。如果有兴趣,您还可以使用textsum工具库,该库可以对其进行大部分抽象处理。

pip install -U textsum
from textsum.summarize import Summarizer

model_name = "pszemraj/long-t5-tglobal-base-16384-booksci-summary-v1"
summarizer = Summarizer(model_name) # GPU auto-detected
text = "put the text you don't want to read here"
summary = summarizer.summarize_string(text)
print(summary)

目标与限制

  • 这是一个初始实验
  • 在撰写本文时,领域泛化能力未知

训练过程

注意:这个模型以较低的学习率进行训练,并且没有达到“绝对收敛”的目的,以保留从对booksum的初始微调中学到的一些特性。

结果

它在评估集上取得了以下结果:

  • 损失:2.3994
  • Rouge1:34.2428
  • Rouge2:4.3644
  • Rougel:12.5332
  • Rougelsum:30.6965
  • 生成长度:294.0249

训练超参数

训练过程中使用了以下超参数:

  • 学习率:3e-05
  • 训练批大小:4
  • 评估批大小:2
  • 种子:42
  • 分布式类型:多GPU
  • 梯度累积步数:16
  • 总训练批大小:64
  • 优化器:Adam,betas=(0.9,0.999),epsilon=1e-08
  • 学习率调度程序类型:余弦
  • 学习率调度程序热身比例:0.05
  • 时期数:2.0

训练结果

Training Loss Epoch Step Validation Loss Rouge1 Rouge2 Rougel Rougelsum Gen Len
2.7492 0.99 67 2.4272 34.6436 4.4536 12.4985 30.916 300.7635
2.6689 1.97 134 2.3994 34.2428 4.3644 12.5332 30.6965 294.0249