taskGPT2-xl v0.2a

模型摘要

我在text2code、cot、math和FLAN任务上对GPT2进行了微调，在某些任务中表现优于GPT-JT

我创建了一个包含开放技术和数据集的收藏来构建taskGPT2-xl：

该模型在大量多样化的数据集上进行了训练，包括 Chain-of-Thought (CoT) 部分， FLAN dataset 部分， Natural-Instructions (NI) dataset 部分。

快速开始

from transformers import pipeline
pipe = pipeline(model='AlexWortega/taskGPT2-xl')
pipe('''"I love this!" Is it positive? A:''')

或者

from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("taskGPT2-xl")
model = AutoModelForCausalLM.from_pretrained("taskGPT2-xl")

许可证

taskGPT2-xl 的权重采用 Apache 许可证的 2.0 版本。

训练细节

我使用了 huggingface 的数据集：

strategyqa_train
aqua_train
qed_train

超参数

我使用了 Novograd 优化器，学习率为 2e-5，全局批量大小为 6（每个数据并行 worker 为 3）。我同时使用数据并行和流水线并行进行训练。在训练过程中，我将输入序列截断为 512 个标记，对于包含少于 512 个标记的输入序列，我将多个序列连接成一个长序列，以提高数据利用效率。

参考文献

#Metrics

即将推出

BibTeX 引用和引文信息

@article{
  title={GPT2xl is underrated task solver},
  author={Nickolich Aleksandr, Karina Romanova, Arseniy Shahmatov, Maksim Gersimenko},
  year={2023}
}

作者:

Wortega

数据集大小:

2.95 GB