英文

pszemraj/pegasus-x-large-book-summary

获取类似于SparkNotes的任意文本摘要!由于模型大小,建议在Colab(上面链接)中尝试,因为API文本框可能会超时。

此模型是 kmfoda/booksum 数据集上进行约八个时期微调的版本。

训练和评估数据

需要更多信息

训练过程

训练超参数

Epochs 1-4

待办事项

Epochs 5 & 6

训练期间使用了以下超参数:

  • learning_rate: 6e-05
  • train_batch_size: 4
  • eval_batch_size: 1
  • seed: 42
  • distributed_type: multi-GPU
  • gradient_accumulation_steps: 32
  • total_train_batch_size: 128
  • optimizer: ADAN 使用lucidrains的 adan-pytorch 和默认的betas
  • lr_scheduler_type: constant_with_warmup
  • data type: TF32
  • num_epochs: 2
Epochs 7 & 8
  • epochs 5 & 6使用12288个令牌输入进行训练
  • 这通过2个16384个令牌输入的时期进行修复

训练期间使用了以下超参数:

  • learning_rate: 0.0004
  • train_batch_size: 4
  • eval_batch_size: 1
  • seed: 42
  • distributed_type: multi-GPU
  • gradient_accumulation_steps: 16
  • total_train_batch_size: 64
  • optimizer: ADAN 使用lucidrains的 adan-pytorch 和默认的betas
  • lr_scheduler_type: cosine
  • lr_scheduler_warmup_ratio: 0.03
  • num_epochs: 2

框架版本

  • Transformers 4.22.0
  • Pytorch 1.11.0a0+17540c5
  • Datasets 2.4.0
  • Tokenizers 0.12.1