Llama 2是一系列预训练和微调的生成文本模型,参数规模从70亿到700亿不等。这是7B预训练模型的存储库,已转换为Hugging Face Transformers格式。其他模型的链接可以在底部的索引中找到。
注意:使用此模型受Meta许可证的约束。要下载模型权重和分词器,请访问 website 并在此处请求访问前接受我们的许可证。
Meta开发并公开发布了Llama 2系列大型语言模型(LLM),这是一系列预训练和微调的生成文本模型,参数规模从70亿到700亿不等。我们进行了针对对话使用情况优化的微调LLM,称为Llama-2-Chat。 Llama-2-Chat模型在我们测试的大多数基准以及我们的人工评估(有关帮助性和安全性)上均优于开源聊天模型,并且与一些流行的闭源模型(如ChatGPT和PaLM)不相上下。
模型开发者Meta
变体Llama 2有多个参数大小-7B、13B和70B-以及预先训练和微调的变体。
输入模型输入仅为文本。
输出模型仅生成文本。
模型架构Llama 2是一种自回归语言模型,采用了优化的Transformer架构。调整版本使用监督微调(SFT)和强化学习与人类反馈(RLHF)来与人的偏好(对于帮助性和安全性)保持一致。
Training Data | Params | Content Length | GQA | Tokens | LR | |
---|---|---|---|---|---|---|
Llama 2 | A new mix of publicly available online data | 7B | 4k | ✗ | 2.0T | 3.0 x 10 -4 |
Llama 2 | A new mix of publicly available online data | 13B | 4k | ✗ | 2.0T | 3.0 x 10 -4 |
Llama 2 | A new mix of publicly available online data | 70B | 4k | ✔ | 2.0T | 1.5 x 10 -4 |
Llama 2模型系列。令牌计数仅适用于预训练数据。所有模型都使用全局批次大小为4M令牌进行训练。更大的模型-70B-使用分组查询注意力(GQA)以提高推理可扩展性。
模型日期Llama 2的训练时间为2023年1月至2023年7月。
状态这是一个静态模型,训练于离线数据集上。随着我们通过社区反馈改进模型的安全性,将发布针对微调模型的未来版本。
许可证提供定制的商业许可证: https://ai.meta.com/resources/models-and-libraries/llama-downloads/
预期的用途Llama 2旨在用于商业和英语研究。微调模型适用于类似助手的聊天,而预训练模型可以用于各种自然语言生成任务。
要获得聊天版本的预期功能和性能,需要遵循特定的格式,包括INST和<<SYS>>标记、BOS和EOS令牌以及之间的空格和换行符(建议对输入调用strip()以避免双空格)。有关详细信息,请参阅我们在GitHub上的参考代码: chat_completion
不适用于的用途以任何违反适用法律或法规(包括贸易合规法)的方式使用。在英语以外的语言中使用。以Llama 2可接受的使用政策和许可协议禁止的任何其他方式使用。
训练因素我们使用自定义训练库、Meta的研究超级集群和生产集群进行预训练。微调、注释和评估也在第三方云计算上执行。
碳足迹预训练使用了累计3.3M的GPU小时计算,在A100-80GB(功耗为350-400W)类型的硬件上进行。估计的总排放量为539 tCO2eq,全部由Meta的可持续性计划抵消。
Time (GPU hours) | Power Consumption (W) | Carbon Emitted(tCO 2 eq) | |
---|---|---|---|
Llama 2 7B | 184320 | 400 | 31.22 |
Llama 2 13B | 368640 | 400 | 62.44 |
Llama 2 70B | 1720320 | 400 | 291.42 |
Total | 3311616 | 539.00 |
进行预训练期间的CO2排放量。时间:训练每个模型所需的总GPU时间。功耗:所使用的GPU设备的峰值功耗容量,已调整为电力使用效率。100%的排放量由Meta的可持续性计划直接抵消,由于我们公开发布这些模型,预训练成本不需要由其他人承担。
概述Llama 2是在来自公开来源的20万亿令牌数据上进行预训练的。微调数据包括公开可用的指令数据集,以及100多万个新的人工注释示例。预训练和微调数据集都不包含Meta用户数据。
数据新鲜度预训练数据的截止日期是2022年9月,但某些微调数据更为近期,最晚到2023年7月。
在本节中,我们报告了Llama 1和Llama 2模型在标准学术基准测试上的结果。对于所有评估,我们使用我们的内部评估库。
Model | Size | Code | Commonsense Reasoning | World Knowledge | Reading Comprehension | Math | MMLU | BBH | AGI Eval |
---|---|---|---|---|---|---|---|---|---|
Llama 1 | 7B | 14.1 | 60.8 | 46.2 | 58.5 | 6.95 | 35.1 | 30.3 | 23.9 |
Llama 1 | 13B | 18.9 | 66.1 | 52.6 | 62.3 | 10.9 | 46.9 | 37.0 | 33.9 |
Llama 1 | 33B | 26.0 | 70.0 | 58.4 | 67.6 | 21.4 | 57.8 | 39.8 | 41.7 |
Llama 1 | 65B | 30.7 | 70.7 | 60.5 | 68.6 | 30.8 | 63.4 | 43.5 | 47.6 |
Llama 2 | 7B | 16.8 | 63.9 | 48.9 | 61.3 | 14.6 | 45.3 | 32.6 | 29.3 |
Llama 2 | 13B | 24.5 | 66.9 | 55.4 | 65.8 | 28.7 | 54.8 | 39.4 | 39.1 |
Llama 2 | 70B | 37.5 | 71.9 | 63.6 | 69.4 | 35.2 | 68.9 | 51.2 | 54.2 |
在分组学术基准测试中的整体性能。代码:我们报告我们的模型在HumanEval和MBPP上的平均pass@1分数。常识推理:我们报告PIQA、SIQA、HellaSwag、WinoGrande、ARC easy和challenge、OpenBookQA和CommonsenseQA的平均值。我们报告CommonSenseQA的7-shot结果以及其他所有基准的0-shot结果。世界知识:我们评估NaturalQuestions和TriviaQA的5-shot性能并报告平均值。阅读理解:对于阅读理解,我们报告SQuAD、QuAC和BoolQ的0-shot平均值。数学:我们报告GSM8K(8 shot)和MATH(4 shot)基准的top 1平均值。
TruthfulQA | Toxigen | ||
---|---|---|---|
Llama 1 | 7B | 27.42 | 23.00 |
Llama 1 | 13B | 41.74 | 23.08 |
Llama 1 | 33B | 44.19 | 22.57 |
Llama 1 | 65B | 48.71 | 21.77 |
Llama 2 | 7B | 33.29 | 21.25 |
Llama 2 | 13B | 41.86 | 26.10 |
Llama 2 | 70B | 50.18 | 24.60 |
在自动安全基准测试上对预训练LLMs进行评估。对于TruthfulQA,我们提供既真实又信息丰富的生成占比(越高越好)。对于ToxiGen,我们报告有毒生成的百分比(越小越好)。
TruthfulQA | Toxigen | ||
---|---|---|---|
Llama-2-Chat | 7B | 57.04 | 0.00 |
Llama-2-Chat | 13B | 62.18 | 0.00 |
Llama-2-Chat | 70B | 64.14 | 0.01 |
在不同安全数据集上对微调LLMs进行评估。度量标准定义与上述相同。
Llama 2是一项带有使用风险的新技术。至今进行的测试仅涵盖了英语,并没有涵盖所有场景,也不能涵盖所有场景。因此,与所有LLM一样,无法预测Llama 2的潜在输出,在某些情况下,模型可能会产生不准确、带偏见或其他令人反感的响应。因此,在部署Llama 2的任何应用之前,开发人员应针对其特定模型应用执行安全测试和调优。
请参阅“负责任使用指南”,网址: https://ai.meta.com/llama/responsible-use-guide/
请通过以下一种方式报告模型的任何软件“错误”或其他问题:
Model | Llama2 | Llama2-hf | Llama2-chat | Llama2-chat-hf |
---|---|---|---|---|
7B | 1237321 | 1238321 | 1239321 | 12310321 |
13B | 12311321 | 12312321 | 12313321 | 12312321 |
70B | 12315321 | 12316321 | 12317321 | 12316321 |