英文

long-t5-tglobal-base-sci-simplify: elife子集

探索基于科学论文"简化摘要"的长文档模型的泛化能力。

简化摘要是研究论文或科学研究的摘要,采用简明易懂的普通语言编写,不使用专业术语,旨在非专业人士能轻松理解。

模型描述

该模型是在pszemraj/scientific_lay_summarisation-elife-norm数据集上微调的版本 google/long-t5-tglobal-base

  • 可以在PLOS子集上找到经训练的变体 here

用法

建议使用此模型与 beam search decoding 结合使用。如果有兴趣,还可以使用textsum util repo来对此进行大部分抽象处理:

pip install -U textsum
from textsum.summarize import Summarizer

model_name = "pszemraj/long-t5-tglobal-base-sci-simplify-elife"
summarizer = Summarizer(model_name) # GPU auto-detected
text = "put the text you don't want to read here"
summary = summarizer.summarize_string(text)
print(summary)

预期用途和限制

  • 必须评估其在数据集域之外(pubmed/生物科学类型论文)的泛化能力。

训练和评估数据

:lay摘要数据集的elife子集。请参阅pszemraj/scientific_lay_summarisation-elife-norm

训练过程

评估结果

它在评估集上取得以下结果:

  • Loss: 1.9990
  • Rouge1: 38.5587
  • Rouge2: 9.7336
  • Rougel: 21.1974
  • Rougelsum: 35.9333
  • Gen Len: 392.7095

训练超参数

训练过程中使用了以下超参数:

  • learning_rate: 0.0004
  • train_batch_size: 4
  • eval_batch_size: 2
  • seed: 42
  • distributed_type: multi-GPU
  • gradient_accumulation_steps: 16
  • total_train_batch_size: 64
  • optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
  • lr_scheduler_type: cosine
  • lr_scheduler_warmup_ratio: 0.01
  • num_epochs: 3.0

训练结果

Training Loss Epoch Step Validation Loss Rouge1 Rouge2 Rougel Rougelsum Gen Len
2.2995 1.47 100 2.0175 35.2501 8.2121 20.4587 32.4494 439.7552
2.2171 2.94 200 1.9990 38.5587 9.7336 21.1974 35.9333 392.7095