模型:
pszemraj/long-t5-tglobal-base-16384-booksci-summary-v1
一个实验,通过对从booksum检查点开始的不同数据集进行微调来研究迁移学习能力。
这个模型是基于数据集pszemraj/scientific_lay_summarisation-elife-norm对 pszemraj/long-t5-tglobal-base-16384-book-summary 进行两个时期的微调版本。
建议与 beam search decoding 一起使用此模型。如果有兴趣,您还可以使用textsum工具库,该库可以对其进行大部分抽象处理。
pip install -U textsum
from textsum.summarize import Summarizer model_name = "pszemraj/long-t5-tglobal-base-16384-booksci-summary-v1" summarizer = Summarizer(model_name) # GPU auto-detected text = "put the text you don't want to read here" summary = summarizer.summarize_string(text) print(summary)
注意:这个模型以较低的学习率进行训练,并且没有达到“绝对收敛”的目的,以保留从对booksum的初始微调中学到的一些特性。
它在评估集上取得了以下结果:
训练过程中使用了以下超参数:
Training Loss | Epoch | Step | Validation Loss | Rouge1 | Rouge2 | Rougel | Rougelsum | Gen Len |
---|---|---|---|---|---|---|---|---|
2.7492 | 0.99 | 67 | 2.4272 | 34.6436 | 4.4536 | 12.4985 | 30.916 | 300.7635 |
2.6689 | 1.97 | 134 | 2.3994 | 34.2428 | 4.3644 | 12.5332 | 30.6965 | 294.0249 |