long-t5-tglobal-base-sci-simplify

探索在科学论文的“简化摘要”上训练的长文档模型的泛化能力。

简化摘要是一篇研究论文或科学研究的总结，用通俗的语言编写，避免使用专业术语，旨在非专业人士容易理解。

模型描述

该模型是在pszemraj/scientific_lay_summarisation-plos-norm数据集上进行两个时期的fine-tuned google/long-t5-tglobal-base 的版本。

可在ELIFE子集上训练的变体可在 here 找到

用法

建议使用此模型与 beam search decoding 一起使用。如果您有兴趣，还可以使用textsum util存储库，以便为您提供大部分的抽象：

用pip安装：

pip install -U textsum

在python中使用：

from textsum.summarize import Summarizer

summarizer = Summarizer('pszemraj/long-t5-tglobal-base-sci-simplify')
text = "put the text you don't want to read here"
summary = summarizer.summarize_string(text)
print(summary)

预期用途和限制

必须评估在数据集领域之外（pubmed/生物科学类型论文）的泛化能力。

训练过程

评估结果

它在评估集上实现以下结果：

损失：1.6778
Rouge1：49.1475
Rouge2：18.9281
Rougel：26.9893
Rougelsum：45.0973
Gen Len：399.4125

训练超参数

训练期间使用了以下超参数：

学习率：0.0004
train_batch_size：4
eval_batch_size：2
种子：42
分布式类型：多GPU
梯度累积步数：16
总训练批量大小：64
优化器：Adam，betas=(0.9,0.999)，epsilon=1e-08
lr_scheduler_type：余弦
lr_scheduler_warmup_ratio：0.01
num_epochs：2.0

训练结果

Training Loss	Epoch	Step	Validation Loss	Rouge1	Rouge2	Rougel	Rougelsum	Gen Len
1.966	0.52	200	1.7171	48.6521	18.427	26.7726	44.3947	376.335
1.877	1.03	400	1.6909	49.3263	18.7945	27.0741	45.1737	382.205
1.9007	1.55	600	1.6778	49.1475	18.9281	26.9893	45.0973	399.4125

作者:

Peter Szemraj

数据集大小:

2.77 GB