long-t5-tglobal-base-sci-simplify: elife子集

探索基于科学论文"简化摘要"的长文档模型的泛化能力。

简化摘要是研究论文或科学研究的摘要，采用简明易懂的普通语言编写，不使用专业术语，旨在非专业人士能轻松理解。

模型描述

该模型是在pszemraj/scientific_lay_summarisation-elife-norm数据集上微调的版本 google/long-t5-tglobal-base 。

可以在PLOS子集上找到经训练的变体 here

用法

建议使用此模型与 beam search decoding 结合使用。如果有兴趣，还可以使用textsum util repo来对此进行大部分抽象处理:

pip install -U textsum

from textsum.summarize import Summarizer

model_name = "pszemraj/long-t5-tglobal-base-sci-simplify-elife"
summarizer = Summarizer(model_name) # GPU auto-detected
text = "put the text you don't want to read here"
summary = summarizer.summarize_string(text)
print(summary)

预期用途和限制

必须评估其在数据集域之外（pubmed/生物科学类型论文）的泛化能力。

训练和评估数据

:lay摘要数据集的elife子集。请参阅pszemraj/scientific_lay_summarisation-elife-norm

训练过程

评估结果

它在评估集上取得以下结果:

Loss: 1.9990
Rouge1: 38.5587
Rouge2: 9.7336
Rougel: 21.1974
Rougelsum: 35.9333
Gen Len: 392.7095

训练超参数

训练过程中使用了以下超参数:

learning_rate: 0.0004
train_batch_size: 4
eval_batch_size: 2
seed: 42
distributed_type: multi-GPU
gradient_accumulation_steps: 16
total_train_batch_size: 64
optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
lr_scheduler_type: cosine
lr_scheduler_warmup_ratio: 0.01
num_epochs: 3.0

训练结果

Training Loss	Epoch	Step	Validation Loss	Rouge1	Rouge2	Rougel	Rougelsum	Gen Len
2.2995	1.47	100	2.0175	35.2501	8.2121	20.4587	32.4494	439.7552
2.2171	2.94	200	1.9990	38.5587	9.7336	21.1974	35.9333	392.7095

作者:

Peter Szemraj

数据集大小:

2.77 GB