英文

语法合成:flan-t5-xl

此模型是在扩展版 JFLEG 数据集上对 google/flan-t5-xl 进行微调的版本。

模型描述

目的是创建一个文本到文本的语言模型,可以成功地对可能存在多个错误的文本进行“一次性语法校正”,但不能对语法正确的文本/信息进行语义变更。

比较一些较严重的错误示例,与 other grammar correction models 进行对比,以了解其中的区别 :)

限制

  • 数据集:cc-by-nc-sa-4.0
  • 模型:apache-2.0
  • 目前仍在进行,尚未完成!虽然在许多情况下对于“一次性语法校正”可能很有用,但是请检查输出以确保正确性,好吗?

训练过程

训练超参数

会话一
  • 待办事项:添加此内容。这是在较高 LR 下的单个 epoch
会话二

训练期间使用了以下超参数:

  • learning_rate: 4e-05
  • train_batch_size: 4
  • eval_batch_size: 1
  • seed: 42
  • distributed_type: multi-GPU
  • gradient_accumulation_steps: 16
  • total_train_batch_size: 64
  • optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
  • lr_scheduler_type: cosine
  • lr_scheduler_warmup_ratio: 0.02
  • num_epochs: 2.0