英文

GPT-NeoX-20B是一个拥有200亿参数的自回归语言模型,使用了训练集 the Pile 进行了训练。它的架构故意与GPT-3相似,并且几乎与 GPT-J- 6B 完全相同。其训练数据集包含了大量的英文文本,反映了该模型的通用性质。有关模型架构(包括与GPT-3的差异)、训练过程和其他评估的详细信息,请参阅 accompanying paper

模型详情

Hyperparameter Value
n parameters 20554567680
n layers 44
d model 6144
n heads 64
d head 96
n vocab 50257
Sequence Length 2048
Learning Rate 0.97 x 10 -5
Positional Encoding 12311321

用途和限制

预期用途

GPT-NeoX-20B主要用于研究目的。它学习了英语的内部表示,可用于提取对下游任务有用的特征。

除了科学用途外,您还可以进一步微调和适应GPT-NeoX-20B用于部署,只要您的使用符合Apache 2.0许可证的规定。该模型可与 Transformers Library 一起使用。如果您决定将预训练的GPT-NeoX-20B用作微调模型的基础,请注意您需要进行自己的风险和偏差评估。

超出范围的用途

GPT-NeoX-20B不适用于直接部署。它不是一个产品,不能在没有监督的情况下用于人机交互。

GPT-NeoX-20B未针对常见的语言模型部署的下游任务进行微调,例如写作文或商业聊天机器人。这意味着与ChatGPT等产品不同,GPT-NeoX-20B可能不会以预期的方式回应给定的提示。这是因为ChatGPT等模型使用了增强学习人类反馈(RLHF)等方法进行了微调,以更好地“理解”人类指令和对话。

该模型仅支持英语,因此无法用于其他语言的翻译或生成文本。

限制和偏差

GPT-NeoX-20B的核心功能是接收一串文本,并预测下一个标记。记住,统计上最可能的下一个标记不一定产生最“准确”的文本。不要依赖GPT-NeoX-20B来产生准确的结果。

该模型是在包含粗话、淫秽或其他令人不悦的文本的 the Pile 数据集上进行训练的。有关性别、宗教和种族方面已记录的偏见,请参阅 Section 6 of the Pile paper 。即使提示本身不包含任何明确的冒犯性内容,GPT-NeoX-20B可能会生成社会上不可接受或不良的文本。

我们建议在将模型输出呈现给人类读者之前对其进行编辑。请告知您的受众您正在使用人工生成的文本。

如何使用

如果您只是想尝试一些提示,请查看 this playground

GPT-NeoX-20B可以使用AutoModelForCausalLM功能加载:

from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("EleutherAI/gpt-neox-20b")
model = AutoModelForCausalLM.from_pretrained("EleutherAI/gpt-neox-20b")

训练

训练数据集

Pile是一个825GiB的通用数据集,用于训练大型语言模型。它是由EleutherAI专门为此目的创建的。它包含来自22个不同来源的文本,大致分为五个类别:学术写作(例如arXiv),互联网(例如CommonCrawl),散文(例如Project Gutenberg),对话(例如YouTube字幕)和其他(例如GitHub,Enron Emails)。有关所有数据来源、方法论以及道德影响的详细信息,请参阅 the Pile paper 。有关Pile及其组成数据集的更详细文档,请参阅 the datasheet 。可以从 official website community mirror 下载Pile。

在用于训练GPT-NeoX-20B之前,Pile没有经过去重。

训练过程

GPT-NeoX-20B使用每个批次约315万个标记(每个批次包含2048个标记的1538个序列)进行训练,总共进行了150,000个步骤。张量并行和管道并行技术用于将模型分布在多个GPU上。有关训练过程的其他详细信息,请参阅 Section 3 of the accompanying paper

评估

在选定的自然语言任务上的零样本性能。

这只是评估结果的大幅缩减版。 GPT-NeoX-20B paper 的附录D对更多模型大小进行了比较,并包含其他评估,包括零样本和五样本自然语言任务,零样本和五样本基本算术和数学,以及零样本Hendrycks任务。

BibTeX

引用GPT-NeoX-20B论文:

@misc{https://doi.org/10.48550/arxiv.2204.06745,
  doi = {10.48550/ARXIV.2204.06745},
  
  url = {https://arxiv.org/abs/2204.06745},
  
  author = {Black, Sid and Biderman, Stella and Hallahan, Eric and Anthony, Quentin and Gao, Leo and Golding, Laurence and He, Horace and Leahy, Connor and McDonell, Kyle and Phang, Jason and Pieler, Michael and Prashanth, USVSN Sai and Purohit, Shivanshu and Reynolds, Laria and Tow, Jonathan and Wang, Ben and Weinbach, Samuel},
  
  keywords = {Computation and Language (cs.CL), FOS: Computer and information sciences, FOS: Computer and information sciences},
  
  title = {GPT-NeoX-20B: An Open-Source Autoregressive Language Model},
  
  publisher = {arXiv},
  
  year = {2022},
  
  copyright = {Creative Commons Attribution 4.0 International}
}