Llama 2是一系列预训练和微调的生成文本模型,规模从70亿到700亿个参数不等。这是70B微调模型的存储库,针对对话用例进行了优化,并转换为Hugging Face Transformers格式。其他模型的链接可以在底部的索引中找到。
注意:使用此模型受Meta许可证的约束。为了下载模型权重和分词器,请访问 website 并在此请求访问之前接受我们的许可证。
Meta开发并公开发布了Llama 2系列大型语言模型(LLM),这是一系列预训练和微调的生成文本模型,规模从70亿到700亿个参数不等。我们微调的LLM模型称为Llama-2-Chat,在大多数我们测试的基准中,Llama-2-Chat模型的性能优于开源聊天模型,并在我们人工评估中的有用性和安全性方面与一些流行的闭源模型(如ChatGPT和PaLM)不相上下。
模型开发者:Meta
变体:Llama 2提供了多种参数大小的选择——7B、13B和70B——以及预训练和微调的变体。
输入:模型仅接受文本输入。
输出:模型仅生成文本。
模型架构:Llama 2是一种自回归语言模型,采用了优化的Transformer架构。经过微调的版本使用了有监督的微调(SFT)和基于人类反馈的强化学习(RLHF)方法,以与人类对有用性和安全性的偏好保持一致。
Training Data | Params | Content Length | GQA | Tokens | LR | |
---|---|---|---|---|---|---|
Llama 2 | A new mix of publicly available online data | 7B | 4k | ✗ | 2.0T | 3.0 x 10 -4 |
Llama 2 | A new mix of publicly available online data | 13B | 4k | ✗ | 2.0T | 3.0 x 10 -4 |
Llama 2 | A new mix of publicly available online data | 70B | 4k | ✔ | 2.0T | 1.5 x 10 -4 |
模型家族的Llama 2。令牌计数仅指预训练数据。所有模型都是使用全局批量大小为4M令牌进行训练的。规模更大的模型(70B)使用分组查询注意力(GQA)来提高推理可扩展性。
模型日期:Llama 2的训练日期为2023年1月至2023年7月。
状态:这是一个在离线数据集上训练的静态模型。随着我们根据社区反馈改进模型的安全性,未来版本的调整模型将会发布。
许可证:自定义商业许可证可在 https://ai.meta.com/resources/models-and-libraries/llama-downloads/ 处获得。
拟定使用情况:Llama 2适用于商业和研究领域的英文使用。微调模型适用于类似助手的对话,而预训练模型可以用于多种自然语言生成任务的适应。
超出范围的用途:在违反适用法律或法规(包括贸易合规法)的任何情况下使用。在英文以外的语言中使用。以任何违反Llama 2的可接受使用政策和许可协议的方式使用。
训练因素:我们使用自定义训练库、Meta的研究超级集群和生产集群进行预训练。微调、注释和评估也在第三方云计算上进行。
碳足迹:预训练使用了总计330万GPU小时的计算,在A100-80GB(TDP为350-400W)的硬件上进行。估计总排放量为539 tCO2eq,Meta的可持续发展计划对其进行了100%的抵消。
Time (GPU hours) | Power Consumption (W) | Carbon Emitted(tCO 2 eq) | |
---|---|---|---|
Llama 2 7B | 184320 | 400 | 31.22 |
Llama 2 13B | 368640 | 400 | 62.44 |
Llama 2 70B | 1720320 | 400 | 291.42 |
Total | 3311616 | 539.00 |
预训练期间的CO 2 排放量。时间:训练每个模型所需的总GPU时间。功耗:用于使用的GPU设备的峰值功耗能力,根据功耗使用效率进行调整。100%的排放量由Meta的可持续发展计划直接抵消,由于我们公开发布这些模型,其他人不需要承担预训练成本。
概述:Llama 2在来自公开可用源的2万亿个标记的数据上进行了预训练。微调数据包括公开可用的指令数据集,以及超过一百万个新的人工注释示例。预训练数据和微调数据集均不包括Meta用户数据。
数据新鲜度:预训练数据的截止日期为2022年9月,但某些微调数据最近可追溯到2023年7月。
在本节中,我们报告了Llama 1和Llama 2模型在标准学术基准测试上的结果。对于所有评估,我们使用了我们的内部评估库。
Model | Size | Code | Commonsense Reasoning | World Knowledge | Reading Comprehension | Math | MMLU | BBH | AGI Eval |
---|---|---|---|---|---|---|---|---|---|
Llama 1 | 7B | 14.1 | 60.8 | 46.2 | 58.5 | 6.95 | 35.1 | 30.3 | 23.9 |
Llama 1 | 13B | 18.9 | 66.1 | 52.6 | 62.3 | 10.9 | 46.9 | 37.0 | 33.9 |
Llama 1 | 33B | 26.0 | 70.0 | 58.4 | 67.6 | 21.4 | 57.8 | 39.8 | 41.7 |
Llama 1 | 65B | 30.7 | 70.7 | 60.5 | 68.6 | 30.8 | 63.4 | 43.5 | 47.6 |
Llama 2 | 7B | 16.8 | 63.9 | 48.9 | 61.3 | 14.6 | 45.3 | 32.6 | 29.3 |
Llama 2 | 13B | 24.5 | 66.9 | 55.4 | 65.8 | 28.7 | 54.8 | 39.4 | 39.1 |
Llama 2 | 70B | 37.5 | 71.9 | 63.6 | 69.4 | 35.2 | 68.9 | 51.2 | 54.2 |
总体在分组学术基准测试中的表现。Code:我们报告了模型在HumanEval和MBPP上的平均pass@1分数。常识推理:我们报告了PIQA、SIQA、HellaSwag、WinoGrande、ARC easy和challenge、OpenBookQA和CommonsenseQA的平均分数。我们对CommonSenseQA进行了7次预测,对其他所有基准测试均进行了0次预测。世界知识:我们评估了对NaturalQuestions和TriviaQA进行的5次预测性能,并报告了平均值。阅读理解:对于阅读理解,我们报告了在SQuAD、QuAC和BoolQ上的0次预测平均值。数学:我们报告了GSM8K(8次预测)和MATH(4次预测)基准测试的平均分数。
TruthfulQA | Toxigen | ||
---|---|---|---|
Llama 1 | 7B | 27.42 | 23.00 |
Llama 1 | 13B | 41.74 | 23.08 |
Llama 1 | 33B | 44.19 | 22.57 |
Llama 1 | 65B | 48.71 | 21.77 |
Llama 2 | 7B | 33.29 | 21.25 |
Llama 2 | 13B | 41.86 | 26.10 |
Llama 2 | 70B | 50.18 | 24.60 |
对预训练LLM在自动安全基准测试上的评估。对于TruthfulQA,我们呈现出既真实又信息丰富的产生百分比(越高越好)。对于ToxiGen,我们呈现出有害生成的百分比(越小越好)。
TruthfulQA | Toxigen | ||
---|---|---|---|
Llama-2-Chat | 7B | 57.04 | 0.00 |
Llama-2-Chat | 13B | 62.18 | 0.00 |
Llama-2-Chat | 70B | 64.14 | 0.01 |
对不同安全数据集上微调LLM的评估。定义与上述相同的度量标准。
Llama 2是一项带有风险的新技术。迄今为止的测试使用的是英语,并且并未覆盖所有情景,也无法覆盖所有情景。因此,与所有LLM一样,无法提前预测Llama 2的潜在输出,在某些情况下模型可能会产生不准确、偏执或其他令人反感的响应。因此,在部署Llama 2的任何应用程序之前,开发人员应根据其具体模型应用进行安全性测试和调整。
请参阅 https://ai.meta.com/llama/responsible-use-guide/ 处提供的负责任使用指南。
请通过以下任一方式报告模型的任何软件“错误”或其他问题:
Model | Llama2 | Llama2-hf | Llama2-chat | Llama2-chat-hf |
---|---|---|---|---|
7B | 1236321 | 1237321 | 1238321 | 1239321 |
13B | 12310321 | 12311321 | 12312321 | 12311321 |
70B | 12314321 | 12315321 | 12316321 | 12315321 |