英文

pszemraj/pegasus-large-summary-explain

该模型是在 booksum 数据集上,在 google/pegasus-large 的基础上进行微调的,共经过4个时期的训练。

在评估集上取得以下结果:

  • eval_loss: 1.1193
  • eval_runtime: 6.6754
  • eval_samples_per_second: 27.714
  • eval_steps_per_second: 1.798
  • epoch: 3.0
  • step: 900

可以在 pszemraj/pegasus-large-book-summary 找到一个1个时期的检查点,这是第二次训练会话起始的地方。

模型描述

  • 经过一些初步测试,发现在 booksum 数据集上训练的模型似乎会继承概括的SparkNotes风格解释;所以用户可以获得较短且更易理解的文本版本,而不仅仅是更紧凑的版本。
  • 这种质量(根据经验)有利于学习/理解,因为仅仅是使信息更加紧凑的概括数据集(*咳咳*arXiv)可能是如此密集,以至于尝试去理解它所说的内容所花费的总时间可能与阅读原始材料相同。

预期用途和限制

  • 标准的pegasus模型的最大输入长度为1024个标记,因此模型只能看到章节的前1024个标记,并尝试从这些标记中生成章节的概述。在使用该模型时请记住这一点,因为超过1024个标记的文本序列末尾可能会被排除在最终的摘要之外,或者模型将偏向于先提出的信息。

训练和评估数据

需要更多信息。

训练过程

训练超参数

在训练过程中使用了以下超参数:

  • learning_rate: 4e-05
  • train_batch_size: 16
  • eval_batch_size: 16
  • seed: 42
  • distributed_type: multi-GPU
  • gradient_accumulation_steps: 2
  • total_train_batch_size: 32
  • optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
  • lr_scheduler_type: cosine
  • lr_scheduler_warmup_ratio: 0.03
  • num_epochs: 4

框架版本

  • Transformers 4.16.2
  • Pytorch 1.10.2+cu113
  • Datasets 1.18.3
  • Tokenizers 0.11.0