GPT-JT

随意尝试我们的 Online Demo ！

模型概述

通过新的去中心化训练算法，我们在35.3亿个标记上对GPT-J（6B）进行了微调，得到了GPT-JT（6B），这个模型在分类基准测试中胜过了许多拥有1000亿或更多参数的模型。

我们使用了一系列开放技术和数据集来构建GPT-JT：

GPT-JT是 EleutherAI 的一个分支 GPT-J (6B) ；
我们使用了 UL2 的训练目标，使得模型能够看到提示的双向上下文；
模型是在大量多样的数据集上进行训练的，包括 Chain-of-Thought (CoT) 、 Public Pool of Prompts (P3) dataset 、 Natural-Instructions (NI) dataset 。

通过上述技术的帮助，GPT-JT大大提高了在分类任务上的性能，甚至胜过了大多数拥有1000亿或更多参数的模型！

快速开始

from transformers import pipeline
pipe = pipeline(model='togethercomputer/GPT-JT-6B-v1')
pipe('''"I love this!" Is it positive? A:''')

或

from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("togethercomputer/GPT-JT-6B-v1")
model = AutoModelForCausalLM.from_pretrained("togethercomputer/GPT-JT-6B-v1")

许可协议

GPT-JT-6B-v1的权重受Apache License版本2.0的许可。

训练详情

UL2训练目标

我们使用UL2训练目标[1][2]来训练GPT-JT。原始的GPT-J使用因果掩码（如下图左侧所示）进行自回归生成。因此，对于每个标记，它只能看到它的前一个上下文。为了充分利用上下文信息，我们继续使用UL2训练目标来训练GPT-J，并使用具有前缀的因果掩码（如下图右侧所示）- 在提示/输入上使用双向注意力，在标记生成上使用因果注意力。直观上，在能够双向看到上下文的情况下，可能会改善需要此信息的下游任务。

[1 0 0 0 0 1 1 0 0 0 1 1 1 0 0 1 1 1 1 0 1 1 1 1 1] [1 1 1 0 0 1 1 1 0 0 1 1 1 0 0 1 1 1 1 0 1 1 1 1 1] \begin{bmatrix}1 & 0 & 0 & 0 & 0 \\1 & 1 & 0 & 0 & 0 \\1 & 1 & 1 & 0 & 0 \\1 & 1 & 1 & 1 & 0 \\1 & 1 & 1 & 1 & 1 \end{bmatrix}\begin{bmatrix}1 & 1 & 1 & 0 & 0 \\1 & 1 & 1 & 0 & 0 \\1 & 1 & 1 & 0 & 0 \\1 & 1 & 1 & 1 & 0 \\1 & 1 & 1 & 1 & 1 \end{bmatrix} ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎡ 1 1 1 1 1 0 1 1 1 1 0 0 1 1 1 0 0 0 1 1 0 0 0 0 1 ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎤ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎡ 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 0 1 1 0 0 0 0 1 ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎤

此外，我们利用了大量的数据，包括 Natural-Instructions 、 P3 、 MMLU-COT 和 the Pile 。具体而言，我们首先使用UL2损失对Pile的26.2亿个标记进行训练，然后使用上述数据集的组合来训练9.2亿个标记：COT的5%、P3的20%、NI的20%和Pile的55%。

超参数

我们使用学习率为1e-5和全局批量大小为64（每个数据并行工作者为16）的AdamW进行训练。我们使用混合精度训练，其中激活在FP16中，而优化器状态保持在FP32中。我们同时使用数据并行和流水线并行进行训练。在训练期间，我们将输入序列截断为2048个标记，对于包含少于2048个标记的输入序列，我们将多个序列连接成一个长序列，以提高数据效率。

基础设施

我们使用 the Together Research Computer 进行训练。

参考文献

[1]: Tay, Yi, Mostafa Dehghani, Vinh Q. Tran, Xavier Garcia, Dara Bahri, Tal Schuster, Huaixiu Steven Zheng, Neil Houlsby, and Donald Metzler. "Unifying Language Learning Paradigms." arXiv preprint arXiv:2205.05131 (2022).

[2]: Tay, Yi, Jason Wei, Hyung Won Chung, Vinh Q. Tran, David R. So, Siamak Shakeri, Xavier Garcia et al. "Transcending scaling laws with 0.1% extra compute." arXiv preprint arXiv:2210.11399 (2022).

作者:

Together

数据集大小:

11.38 GB