英文

Llama 2

Llama 2是一系列预训练和微调的生成文本模型,规模从70亿到700亿个参数不等。这是70B微调模型的存储库,针对对话用例进行了优化,并转换为Hugging Face Transformers格式。其他模型的链接可以在底部的索引中找到。

模型详情

注意:使用此模型受Meta许可证的约束。为了下载模型权重和分词器,请访问 website 并在此请求访问之前接受我们的许可证。

Meta开发并公开发布了Llama 2系列大型语言模型(LLM),这是一系列预训练和微调的生成文本模型,规模从70亿到700亿个参数不等。我们微调的LLM模型称为Llama-2-Chat,在大多数我们测试的基准中,Llama-2-Chat模型的性能优于开源聊天模型,并在我们人工评估中的有用性和安全性方面与一些流行的闭源模型(如ChatGPT和PaLM)不相上下。

模型开发者:Meta

变体:Llama 2提供了多种参数大小的选择——7B、13B和70B——以及预训练和微调的变体。

输入:模型仅接受文本输入。

输出:模型仅生成文本。

模型架构:Llama 2是一种自回归语言模型,采用了优化的Transformer架构。经过微调的版本使用了有监督的微调(SFT)和基于人类反馈的强化学习(RLHF)方法,以与人类对有用性和安全性的偏好保持一致。

Training Data Params Content Length GQA Tokens LR
Llama 2 A new mix of publicly available online data 7B 4k 2.0T 3.0 x 10 -4
Llama 2 A new mix of publicly available online data 13B 4k 2.0T 3.0 x 10 -4
Llama 2 A new mix of publicly available online data 70B 4k 2.0T 1.5 x 10 -4

模型家族的Llama 2。令牌计数仅指预训练数据。所有模型都是使用全局批量大小为4M令牌进行训练的。规模更大的模型(70B)使用分组查询注意力(GQA)来提高推理可扩展性。

模型日期:Llama 2的训练日期为2023年1月至2023年7月。

状态:这是一个在离线数据集上训练的静态模型。随着我们根据社区反馈改进模型的安全性,未来版本的调整模型将会发布。

许可证:自定义商业许可证可在 https://ai.meta.com/resources/models-and-libraries/llama-downloads/ 处获得。

拟定使用

拟定使用情况:Llama 2适用于商业和研究领域的英文使用。微调模型适用于类似助手的对话,而预训练模型可以用于多种自然语言生成任务的适应。

超出范围的用途:在违反适用法律或法规(包括贸易合规法)的任何情况下使用。在英文以外的语言中使用。以任何违反Llama 2的可接受使用政策和许可协议的方式使用。

硬件和软件

训练因素:我们使用自定义训练库、Meta的研究超级集群和生产集群进行预训练。微调、注释和评估也在第三方云计算上进行。

碳足迹:预训练使用了总计330万GPU小时的计算,在A100-80GB(TDP为350-400W)的硬件上进行。估计总排放量为539 tCO2eq,Meta的可持续发展计划对其进行了100%的抵消。

Time (GPU hours) Power Consumption (W) Carbon Emitted(tCO 2 eq)
Llama 2 7B 184320 400 31.22
Llama 2 13B 368640 400 62.44
Llama 2 70B 1720320 400 291.42
Total 3311616 539.00

预训练期间的CO 2 排放量。时间:训练每个模型所需的总GPU时间。功耗:用于使用的GPU设备的峰值功耗能力,根据功耗使用效率进行调整。100%的排放量由Meta的可持续发展计划直接抵消,由于我们公开发布这些模型,其他人不需要承担预训练成本。

训练数据

概述:Llama 2在来自公开可用源的2万亿个标记的数据上进行了预训练。微调数据包括公开可用的指令数据集,以及超过一百万个新的人工注释示例。预训练数据和微调数据集均不包括Meta用户数据。

数据新鲜度:预训练数据的截止日期为2022年9月,但某些微调数据最近可追溯到2023年7月。

评估结果

在本节中,我们报告了Llama 1和Llama 2模型在标准学术基准测试上的结果。对于所有评估,我们使用了我们的内部评估库。

Model Size Code Commonsense Reasoning World Knowledge Reading Comprehension Math MMLU BBH AGI Eval
Llama 1 7B 14.1 60.8 46.2 58.5 6.95 35.1 30.3 23.9
Llama 1 13B 18.9 66.1 52.6 62.3 10.9 46.9 37.0 33.9
Llama 1 33B 26.0 70.0 58.4 67.6 21.4 57.8 39.8 41.7
Llama 1 65B 30.7 70.7 60.5 68.6 30.8 63.4 43.5 47.6
Llama 2 7B 16.8 63.9 48.9 61.3 14.6 45.3 32.6 29.3
Llama 2 13B 24.5 66.9 55.4 65.8 28.7 54.8 39.4 39.1
Llama 2 70B 37.5 71.9 63.6 69.4 35.2 68.9 51.2 54.2

总体在分组学术基准测试中的表现。Code:我们报告了模型在HumanEval和MBPP上的平均pass@1分数。常识推理:我们报告了PIQA、SIQA、HellaSwag、WinoGrande、ARC easy和challenge、OpenBookQA和CommonsenseQA的平均分数。我们对CommonSenseQA进行了7次预测,对其他所有基准测试均进行了0次预测。世界知识:我们评估了对NaturalQuestions和TriviaQA进行的5次预测性能,并报告了平均值。阅读理解:对于阅读理解,我们报告了在SQuAD、QuAC和BoolQ上的0次预测平均值。数学:我们报告了GSM8K(8次预测)和MATH(4次预测)基准测试的平均分数。

TruthfulQA Toxigen
Llama 1 7B 27.42 23.00
Llama 1 13B 41.74 23.08
Llama 1 33B 44.19 22.57
Llama 1 65B 48.71 21.77
Llama 2 7B 33.29 21.25
Llama 2 13B 41.86 26.10
Llama 2 70B 50.18 24.60

对预训练LLM在自动安全基准测试上的评估。对于TruthfulQA,我们呈现出既真实又信息丰富的产生百分比(越高越好)。对于ToxiGen,我们呈现出有害生成的百分比(越小越好)。

TruthfulQA Toxigen
Llama-2-Chat 7B 57.04 0.00
Llama-2-Chat 13B 62.18 0.00
Llama-2-Chat 70B 64.14 0.01

对不同安全数据集上微调LLM的评估。定义与上述相同的度量标准。

道德考虑和限制

Llama 2是一项带有风险的新技术。迄今为止的测试使用的是英语,并且并未覆盖所有情景,也无法覆盖所有情景。因此,与所有LLM一样,无法提前预测Llama 2的潜在输出,在某些情况下模型可能会产生不准确、偏执或其他令人反感的响应。因此,在部署Llama 2的任何应用程序之前,开发人员应根据其具体模型应用进行安全性测试和调整。

请参阅 https://ai.meta.com/llama/responsible-use-guide/ 处提供的负责任使用指南。

报告问题

请通过以下任一方式报告模型的任何软件“错误”或其他问题:

Llama模型索引

Model Llama2 Llama2-hf Llama2-chat Llama2-chat-hf
7B 1236321 1237321 1238321 1239321
13B 12310321 12311321 12312321 12311321
70B 12314321 12315321 12316321 12315321