英文

Llama 2

Llama 2是一个预训练和微调的生成文本模型集合,参数规模从70亿到700亿不等。这是13B预训练模型的代码库,已为Hugging Face Transformers格式进行转换。索引底部提供了其他模型的链接。

模型详情

注意:使用此模型受Meta许可证管辖。要下载模型权重和分词器,请访问 website 并在此处请求访问前接受我们的许可证。

Meta开发并公开发布了Llama 2系列大型语言模型(LLMs),这是一组预训练和微调的生成文本模型,规模从70亿到700亿参数不等。我们的微调LLMs称为Llama-2-Chat,专为对话用例进行了优化。在我们测试的大部分基准以及我们进行的有关有用性和安全性的人工评估中,Llama-2-Chat模型的表现优于开源聊天模型,并且与一些受欢迎的闭源模型(如ChatGPT和PaLM)不相上下。

模型开发者:Meta

变体:Llama 2有多种参数大小-7B、13B和70B-以及预训练和微调的变体。

输入:模型只接受文本输入。

输出:模型只生成文本。

模型架构:Llama 2是一个自回归语言模型,使用了优化的Transformer架构。微调版本使用了有监督的微调(SFT)和强化学习与人类反馈(RLHF)来对齐人类对有用性和安全性的偏好。

Llama 2模型系列。令牌计数仅指预训练数据。所有模型均使用全局批大小为4M个令牌进行训练。规模更大的模型(70B)使用了Grouped-Query Attention(GQA)以提高推理可扩展性。

模型日期:Llama 2是在2023年1月至2023年7月期间进行训练的。

状态:这是一个在离线数据集上训练的静态模型。我们将根据社区反馈改进模型安全性后,发布未来版本的微调模型。

许可证:自定义商业许可证可在 https://ai.meta.com/resources/models-and-libraries/llama-downloads/ 处获得。

预期用途

预期用例:Llama 2适用于商业和研究用途,支持英文。微调模型适用于类似助手的聊天场景,而预训练模型可用于各种自然语言生成任务。为了获得聊天版本的预期功能和性能,需要遵循特定的格式要求,包括INST和<<SYS>> 标记、BOS和EOS令牌,以及之间的空格和换行符(我们建议对输入调用strip()函数以避免出现多个空格)。有关详细信息,请参阅我们在GitHub上的参考代码 chat_completion

不在范围内的用途:违反适用法律或法规的任何方式使用。在非英语语言中使用。以可接受的使用政策和Llama 2许可协议禁止的任何其他方式使用。

硬件和软件

训练因素:我们使用自定义的训练库、Meta的研究超级计算机和生产集群进行预训练。微调、注释和评估也是在第三方云计算上进行的。

碳足迹:预训练过程中,我们使用了A100-80GB型号(功率消耗350-400W)的硬件累计计算了330万个GPU小时。估计的总排放量为539 tCO2eq,其中100%由Meta的可持续性计划抵消。

预训练期间的二氧化碳排放量。时间:训练每个模型所需的总GPU时间。功耗:所使用的GPU设备的峰值功耗容量,已调整为功耗使用效率。100%的排放量由Meta的可持续性计划直接抵消,因此其他人无需承担预训练成本。

训练数据

概述:Llama 2在公开可获得的数据源上进行了2万亿令牌的预训练。微调数据包括公开可获得的指导数据集以及超过100万个新的人工注释示例。预训练数据和微调数据集均不包含Meta用户数据。

数据新鲜度:预训练数据的截至日期为2022年9月,但一些微调数据较新,最近的可以到2023年7月。

评估结果

在本部分,我们报告了Llama 1和Llama 2模型在标准学术基准上的结果。对于所有评估,我们使用了我们的内部评估库。

统一学术基准的整体表现。代码:我们报告了模型在HumanEval和MBPP的平均pass@1得分。常识推理:我们报告了PIQA、SIQA、HellaSwag、WinoGrande、ARC easy and challenge、OpenBookQA和CommonsenseQA的平均分数。我们报告CommonsenseQA的7-shot结果和其他所有基准的0-shot结果。世界知识:我们评估NaturalQuestions和TriviaQA的5-shot性能并报告平均值。阅读理解:对于阅读理解,我们报告SQuAD、QuAC和BoolQ的0-shot平均分数。数学:我们报告GSM8K(8 shot)和MATH(4 shot)基准的平均分数排名第一。

预训练LLMs在自动安全基准上的评估。对于TruthfulQA,我们提供了真实和信息丰富的生成百分比(百分比越高越好)。对于ToxiGen,我们提供了有害生成的百分比(百分比越小越好)。

在不同安全数据集上对微调LLMs进行评估。度量定义与上述相同。

道德考虑和限制

Llama 2是一项具有风险的新技术。迄今为止的测试是用英语进行的,并且尚未涵盖并且不可能涵盖所有场景。因此,与所有LLM模型一样,无法提前预测Llama 2的潜在输出,该模型在某些情况下可能会产生不准确、带偏见或其他令人反感的响应。因此,在部署Llama 2的任何应用程序之前,开发人员应根据其特定的模型应用执行安全测试和调整。

请参阅 https://ai.meta.com/llama/responsible-use-guide/ 提供的负责任使用指南。

报告问题

请通过以下方法之一报告模型的任何软件“错误”或其他问题:

Llama 模型索引

Model Llama2 Llama2-hf Llama2-chat Llama2-chat-hf
7B 1237321 1238321 1239321 12310321
13B 12311321 12312321 12313321 12312321
70B 12315321 12316321 12317321 12316321