英文

taskGPT2-xl v0.2a

模型摘要

我在text2code、cot、math和FLAN任务上对GPT2进行了微调,在某些任务中表现优于GPT-JT

我创建了一个包含开放技术和数据集的收藏来构建taskGPT2-xl:

快速开始

from transformers import pipeline
pipe = pipeline(model='AlexWortega/taskGPT2-xl')
pipe('''"I love this!" Is it positive? A:''')

或者

from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("taskGPT2-xl")
model = AutoModelForCausalLM.from_pretrained("taskGPT2-xl")

许可证

taskGPT2-xl 的权重采用 Apache 许可证的 2.0 版本。

训练细节

我使用了 huggingface 的数据集:

  • strategyqa_train
  • aqua_train
  • qed_train

超参数

我使用了 Novograd 优化器,学习率为 2e-5,全局批量大小为 6(每个数据并行 worker 为 3)。我同时使用数据并行和流水线并行进行训练。在训练过程中,我将输入序列截断为 512 个标记,对于包含少于 512 个标记的输入序列,我将多个序列连接成一个长序列,以提高数据利用效率。

参考文献

#Metrics

即将推出

BibTeX 引用和引文信息

@article{
  title={GPT2xl is underrated task solver},
  author={Nickolich Aleksandr, Karina Romanova, Arseniy Shahmatov, Maksim Gersimenko},
  year={2023}
}