英文

GPT-JT

随意尝试我们的 Online Demo

模型概述

通过新的去中心化训练算法,我们在35.3亿个标记上对GPT-J(6B)进行了微调,得到了GPT-JT(6B),这个模型在分类基准测试中胜过了许多拥有1000亿或更多参数的模型。

我们使用了一系列开放技术和数据集来构建GPT-JT:

通过上述技术的帮助,GPT-JT大大提高了在分类任务上的性能,甚至胜过了大多数拥有1000亿或更多参数的模型!

快速开始

from transformers import pipeline
pipe = pipeline(model='togethercomputer/GPT-JT-6B-v1')
pipe('''"I love this!" Is it positive? A:''')

from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("togethercomputer/GPT-JT-6B-v1")
model = AutoModelForCausalLM.from_pretrained("togethercomputer/GPT-JT-6B-v1")

许可协议

GPT-JT-6B-v1的权重受Apache License版本2.0的许可。

训练详情

UL2训练目标

我们使用UL2训练目标[1][2]来训练GPT-JT。原始的GPT-J使用因果掩码(如下图左侧所示)进行自回归生成。因此,对于每个标记,它只能看到它的前一个上下文。为了充分利用上下文信息,我们继续使用UL2训练目标来训练GPT-J,并使用具有前缀的因果掩码(如下图右侧所示)- 在提示/输入上使用双向注意力,在标记生成上使用因果注意力。直观上,在能够双向看到上下文的情况下,可能会改善需要此信息的下游任务。

[1 0 0 0 0 1 1 0 0 0 1 1 1 0 0 1 1 1 1 0 1 1 1 1 1] [1 1 1 0 0 1 1 1 0 0 1 1 1 0 0 1 1 1 1 0 1 1 1 1 1] \begin{bmatrix}1 & 0 & 0 & 0 & 0 \\1 & 1 & 0 & 0 & 0 \\1 & 1 & 1 & 0 & 0 \\1 & 1 & 1 & 1 & 0 \\1 & 1 & 1 & 1 & 1 \end{bmatrix}\begin{bmatrix}1 & 1 & 1 & 0 & 0 \\1 & 1 & 1 & 0 & 0 \\1 & 1 & 1 & 0 & 0 \\1 & 1 & 1 & 1 & 0 \\1 & 1 & 1 & 1 & 1 \end{bmatrix} ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎡ ​ 1 1 1 1 1 ​ 0 1 1 1 1 ​ 0 0 1 1 1 ​ 0 0 0 1 1 ​ 0 0 0 0 1 ​ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎤ ​ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎡ ​ 1 1 1 1 1 ​ 1 1 1 1 1 ​ 1 1 1 1 1 ​ 0 0 0 1 1 ​ 0 0 0 0 1 ​ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎤ ​

此外,我们利用了大量的数据,包括 Natural-Instructions P3 MMLU-COT the Pile 。具体而言,我们首先使用UL2损失对Pile的26.2亿个标记进行训练,然后使用上述数据集的组合来训练9.2亿个标记:COT的5%、P3的20%、NI的20%和Pile的55%。

超参数

我们使用学习率为1e-5和全局批量大小为64(每个数据并行工作者为16)的AdamW进行训练。我们使用混合精度训练,其中激活在FP16中,而优化器状态保持在FP32中。我们同时使用数据并行和流水线并行进行训练。在训练期间,我们将输入序列截断为2048个标记,对于包含少于2048个标记的输入序列,我们将多个序列连接成一个长序列,以提高数据效率。

基础设施

我们使用 the Together Research Computer 进行训练。

参考文献

[1]: Tay, Yi, Mostafa Dehghani, Vinh Q. Tran, Xavier Garcia, Dara Bahri, Tal Schuster, Huaixiu Steven Zheng, Neil Houlsby, and Donald Metzler. "Unifying Language Learning Paradigms." arXiv preprint arXiv:2205.05131 (2022).

[2]: Tay, Yi, Jason Wei, Hyung Won Chung, Vinh Q. Tran, David R. So, Siamak Shakeri, Xavier Garcia et al. "Transcending scaling laws with 0.1% extra compute." arXiv preprint arXiv:2210.11399 (2022).