模型:
togethercomputer/GPT-JT-6B-v1
任务:
数据集:
natural_instructions the_pile cot Muennighoff/P3 3AMuennighoff/P3 3Acot 3Athe_pile 3Anatural_instructions语言:
其他:
gptj许可:
随意尝试我们的 Online Demo !
通过新的去中心化训练算法,我们在35.3亿个标记上对GPT-J(6B)进行了微调,得到了GPT-JT(6B),这个模型在分类基准测试中胜过了许多拥有1000亿或更多参数的模型。
我们使用了一系列开放技术和数据集来构建GPT-JT:
通过上述技术的帮助,GPT-JT大大提高了在分类任务上的性能,甚至胜过了大多数拥有1000亿或更多参数的模型!
from transformers import pipeline pipe = pipeline(model='togethercomputer/GPT-JT-6B-v1') pipe('''"I love this!" Is it positive? A:''')
或
from transformers import AutoTokenizer, AutoModelForCausalLM tokenizer = AutoTokenizer.from_pretrained("togethercomputer/GPT-JT-6B-v1") model = AutoModelForCausalLM.from_pretrained("togethercomputer/GPT-JT-6B-v1")
GPT-JT-6B-v1的权重受Apache License版本2.0的许可。
我们使用UL2训练目标[1][2]来训练GPT-JT。原始的GPT-J使用因果掩码(如下图左侧所示)进行自回归生成。因此,对于每个标记,它只能看到它的前一个上下文。为了充分利用上下文信息,我们继续使用UL2训练目标来训练GPT-J,并使用具有前缀的因果掩码(如下图右侧所示)- 在提示/输入上使用双向注意力,在标记生成上使用因果注意力。直观上,在能够双向看到上下文的情况下,可能会改善需要此信息的下游任务。
[1 0 0 0 0 1 1 0 0 0 1 1 1 0 0 1 1 1 1 0 1 1 1 1 1] [1 1 1 0 0 1 1 1 0 0 1 1 1 0 0 1 1 1 1 0 1 1 1 1 1] \begin{bmatrix}1 & 0 & 0 & 0 & 0 \\1 & 1 & 0 & 0 & 0 \\1 & 1 & 1 & 0 & 0 \\1 & 1 & 1 & 1 & 0 \\1 & 1 & 1 & 1 & 1 \end{bmatrix}\begin{bmatrix}1 & 1 & 1 & 0 & 0 \\1 & 1 & 1 & 0 & 0 \\1 & 1 & 1 & 0 & 0 \\1 & 1 & 1 & 1 & 0 \\1 & 1 & 1 & 1 & 1 \end{bmatrix} ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎡ 1 1 1 1 1 0 1 1 1 1 0 0 1 1 1 0 0 0 1 1 0 0 0 0 1 ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎤ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎡ 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 0 1 1 0 0 0 0 1 ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎤
此外,我们利用了大量的数据,包括 Natural-Instructions 、 P3 、 MMLU-COT 和 the Pile 。具体而言,我们首先使用UL2损失对Pile的26.2亿个标记进行训练,然后使用上述数据集的组合来训练9.2亿个标记:COT的5%、P3的20%、NI的20%和Pile的55%。
我们使用学习率为1e-5和全局批量大小为64(每个数据并行工作者为16)的AdamW进行训练。我们使用混合精度训练,其中激活在FP16中,而优化器状态保持在FP32中。我们同时使用数据并行和流水线并行进行训练。在训练期间,我们将输入序列截断为2048个标记,对于包含少于2048个标记的输入序列,我们将多个序列连接成一个长序列,以提高数据效率。
我们使用 the Together Research Computer 进行训练。
[1]: Tay, Yi, Mostafa Dehghani, Vinh Q. Tran, Xavier Garcia, Dara Bahri, Tal Schuster, Huaixiu Steven Zheng, Neil Houlsby, and Donald Metzler. "Unifying Language Learning Paradigms." arXiv preprint arXiv:2205.05131 (2022).
[2]: Tay, Yi, Jason Wei, Hyung Won Chung, Vinh Q. Tran, David R. So, Siamak Shakeri, Xavier Garcia et al. "Transcending scaling laws with 0.1% extra compute." arXiv preprint arXiv:2210.11399 (2022).