英文

Llama 2

Llama 2是一系列预训练和微调的生成文本模型,参数规模从70亿到700亿不等。这是7B预训练模型的存储库,已转换为Hugging Face Transformers格式。其他模型的链接可以在底部的索引中找到。

模型细节

注意:使用此模型受Meta许可证的约束。要下载模型权重和分词器,请访问 website 并在此处请求访问前接受我们的许可证。

Meta开发并公开发布了Llama 2系列大型语言模型(LLM),这是一系列预训练和微调的生成文本模型,参数规模从70亿到700亿不等。我们进行了针对对话使用情况优化的微调LLM,称为Llama-2-Chat。 Llama-2-Chat模型在我们测试的大多数基准以及我们的人工评估(有关帮助性和安全性)上均优于开源聊天模型,并且与一些流行的闭源模型(如ChatGPT和PaLM)不相上下。

模型开发者Meta

变体Llama 2有多个参数大小-7B、13B和70B-以及预先训练和微调的变体。

输入模型输入仅为文本。

输出模型仅生成文本。

模型架构Llama 2是一种自回归语言模型,采用了优化的Transformer架构。调整版本使用监督微调(SFT)和强化学习与人类反馈(RLHF)来与人的偏好(对于帮助性和安全性)保持一致。

Training Data Params Content Length GQA Tokens LR
Llama 2 A new mix of publicly available online data 7B 4k 2.0T 3.0 x 10 -4
Llama 2 A new mix of publicly available online data 13B 4k 2.0T 3.0 x 10 -4
Llama 2 A new mix of publicly available online data 70B 4k 2.0T 1.5 x 10 -4

Llama 2模型系列。令牌计数仅适用于预训练数据。所有模型都使用全局批次大小为4M令牌进行训练。更大的模型-70B-使用分组查询注意力(GQA)以提高推理可扩展性。

模型日期Llama 2的训练时间为2023年1月至2023年7月。

状态这是一个静态模型,训练于离线数据集上。随着我们通过社区反馈改进模型的安全性,将发布针对微调模型的未来版本。

许可证提供定制的商业许可证: https://ai.meta.com/resources/models-and-libraries/llama-downloads/

预期用途

预期的用途Llama 2旨在用于商业和英语研究。微调模型适用于类似助手的聊天,而预训练模型可以用于各种自然语言生成任务。

要获得聊天版本的预期功能和性能,需要遵循特定的格式,包括INST和<<SYS>>标记、BOS和EOS令牌以及之间的空格和换行符(建议对输入调用strip()以避免双空格)。有关详细信息,请参阅我们在GitHub上的参考代码: chat_completion

不适用于的用途以任何违反适用法律或法规(包括贸易合规法)的方式使用。在英语以外的语言中使用。以Llama 2可接受的使用政策和许可协议禁止的任何其他方式使用。

硬件和软件

训练因素我们使用自定义训练库、Meta的研究超级集群和生产集群进行预训练。微调、注释和评估也在第三方云计算上执行。

碳足迹预训练使用了累计3.3M的GPU小时计算,在A100-80GB(功耗为350-400W)类型的硬件上进行。估计的总排放量为539 tCO2eq,全部由Meta的可持续性计划抵消。

Time (GPU hours) Power Consumption (W) Carbon Emitted(tCO 2 eq)
Llama 2 7B 184320 400 31.22
Llama 2 13B 368640 400 62.44
Llama 2 70B 1720320 400 291.42
Total 3311616 539.00

进行预训练期间的CO2排放量。时间:训练每个模型所需的总GPU时间。功耗:所使用的GPU设备的峰值功耗容量,已调整为电力使用效率。100%的排放量由Meta的可持续性计划直接抵消,由于我们公开发布这些模型,预训练成本不需要由其他人承担。

训练数据

概述Llama 2是在来自公开来源的20万亿令牌数据上进行预训练的。微调数据包括公开可用的指令数据集,以及100多万个新的人工注释示例。预训练和微调数据集都不包含Meta用户数据。

数据新鲜度预训练数据的截止日期是2022年9月,但某些微调数据更为近期,最晚到2023年7月。

评估结果

在本节中,我们报告了Llama 1和Llama 2模型在标准学术基准测试上的结果。对于所有评估,我们使用我们的内部评估库。

Model Size Code Commonsense Reasoning World Knowledge Reading Comprehension Math MMLU BBH AGI Eval
Llama 1 7B 14.1 60.8 46.2 58.5 6.95 35.1 30.3 23.9
Llama 1 13B 18.9 66.1 52.6 62.3 10.9 46.9 37.0 33.9
Llama 1 33B 26.0 70.0 58.4 67.6 21.4 57.8 39.8 41.7
Llama 1 65B 30.7 70.7 60.5 68.6 30.8 63.4 43.5 47.6
Llama 2 7B 16.8 63.9 48.9 61.3 14.6 45.3 32.6 29.3
Llama 2 13B 24.5 66.9 55.4 65.8 28.7 54.8 39.4 39.1
Llama 2 70B 37.5 71.9 63.6 69.4 35.2 68.9 51.2 54.2

在分组学术基准测试中的整体性能。代码:我们报告我们的模型在HumanEval和MBPP上的平均pass@1分数。常识推理:我们报告PIQA、SIQA、HellaSwag、WinoGrande、ARC easy和challenge、OpenBookQA和CommonsenseQA的平均值。我们报告CommonSenseQA的7-shot结果以及其他所有基准的0-shot结果。世界知识:我们评估NaturalQuestions和TriviaQA的5-shot性能并报告平均值。阅读理解:对于阅读理解,我们报告SQuAD、QuAC和BoolQ的0-shot平均值。数学:我们报告GSM8K(8 shot)和MATH(4 shot)基准的top 1平均值。

TruthfulQA Toxigen
Llama 1 7B 27.42 23.00
Llama 1 13B 41.74 23.08
Llama 1 33B 44.19 22.57
Llama 1 65B 48.71 21.77
Llama 2 7B 33.29 21.25
Llama 2 13B 41.86 26.10
Llama 2 70B 50.18 24.60

在自动安全基准测试上对预训练LLMs进行评估。对于TruthfulQA,我们提供既真实又信息丰富的生成占比(越高越好)。对于ToxiGen,我们报告有毒生成的百分比(越小越好)。

TruthfulQA Toxigen
Llama-2-Chat 7B 57.04 0.00
Llama-2-Chat 13B 62.18 0.00
Llama-2-Chat 70B 64.14 0.01

在不同安全数据集上对微调LLMs进行评估。度量标准定义与上述相同。

伦理考虑和限制

Llama 2是一项带有使用风险的新技术。至今进行的测试仅涵盖了英语,并没有涵盖所有场景,也不能涵盖所有场景。因此,与所有LLM一样,无法预测Llama 2的潜在输出,在某些情况下,模型可能会产生不准确、带偏见或其他令人反感的响应。因此,在部署Llama 2的任何应用之前,开发人员应针对其特定模型应用执行安全测试和调优。

请参阅“负责任使用指南”,网址: https://ai.meta.com/llama/responsible-use-guide/

报告问题

请通过以下一种方式报告模型的任何软件“错误”或其他问题:

Llama模型索引

Model Llama2 Llama2-hf Llama2-chat Llama2-chat-hf
7B 1237321 1238321 1239321 12310321
13B 12311321 12312321 12313321 12312321
70B 12315321 12316321 12317321 12316321