语法合成:flan-t5-xl
此模型是在扩展版 JFLEG 数据集上对
google/flan-t5-xl
进行微调的版本。
模型描述
目的是创建一个文本到文本的语言模型,可以成功地对可能存在多个错误的文本进行“一次性语法校正”,但不能对语法正确的文本/信息进行语义变更。
比较一些较严重的错误示例,与
other grammar correction models
进行对比,以了解其中的区别 :)
限制
- 数据集:cc-by-nc-sa-4.0
- 模型:apache-2.0
- 目前仍在进行,尚未完成!虽然在许多情况下对于“一次性语法校正”可能很有用,但是请检查输出以确保正确性,好吗?
训练过程
训练超参数
会话一
- 待办事项:添加此内容。这是在较高 LR 下的单个 epoch
会话二
训练期间使用了以下超参数:
- learning_rate: 4e-05
- train_batch_size: 4
- eval_batch_size: 1
- seed: 42
- distributed_type: multi-GPU
- gradient_accumulation_steps: 16
- total_train_batch_size: 64
- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
- lr_scheduler_type: cosine
- lr_scheduler_warmup_ratio: 0.02
- num_epochs: 2.0