英文

Chat & support: my new Discord server

Want to contribute? TheBloke's Patreon page

Meta's Llama 2 70B fp16

这些文件是 Meta's Llama 2 70B 的 fp16 格式模型文件。

它们是通过从 Meta 下载 PTH 文件,然后使用最新版本的 Transformers 4.32.0.dev0,包括 Llama 2 PR,从 Git 进行转换为 HF 格式的。 https://github.com/huggingface/transformers/pull/24891

转换命令是:

 python3 /workspace/venv/pytorch2/lib/python3.10/site-packages/transformers/models/llama/convert_llama_weights_to_hf.py --input_dir /workspace/git/llama/download --model_size 70B --output_dir /workspace/process/llama-2-70b-chat/source --safe_serialization true

文件以 SafeTensors 格式保存。

我上传这个存储库是因为我最初尝试使用 MetaLlama 2 70B HF repo 创建 GPTQs,但出现奇怪的错误,表明权重不正确。但是使用最新的 convert_llama_weights_to_hf.py 脚本从 PTH 文件中转换正常。

非常感谢 Chai 的 William Beauchamp 提供硬件合并和上传这些文件!

可用的存储库

提示模板:无

{prompt}

Discord

如需进一步支持和讨论这些模型和 AI,请加入我们的:

TheBloke AI's Discord server

感谢和如何贡献

感谢 chirper.ai 团队!

很多人问是否可以做出贡献。我喜欢提供模型和帮助别人,非常感谢并将格外感激您的贡献,这将帮助我继续提供更多模型,并开始新的 AI 项目,如精细调整/训练。

捐助者将优先获得有关任何 AI/LLM/模型的支持、问题和请求,并获得访问私人 Discord 房间等其他福利。

特别感谢:Luke from CarbonQuill,Aemon Algiz。

Patreon 特别提及:Space Cruiser,Nikolai Manek,Sam,Chris McCloskey,Rishabh Srivastava,Kalila,Spiking Neurons AB,Khalefa Al-Ahmad,WelcomeToTheClub,Chadd,Lone Striker,Viktor Bowallius,Edmond Seymore,Ai Maven,Chris Smitley,Dave,Alexandros Triantafyllidis,Luke @flexchar,Elle,ya boyyy,Talal Aujan,Alex,Jonathan Leane,Deep Realms,Randy H,subjectnull,Preetika Verma,Joseph William Delisle,Michael Levine,chris gileta,K,Oscar Rangel,LangChain4j,Trenton Dambrowitz,Eugene Pentland,Johann-Peter Hartmann,Femi Adebogun,Illia Dulskyi,senxiiz,Daniel P. Andersen,Sean Connelly,Artur Olbinski,RoA,Mano Prime,Derek Yates,Raven Klaugh,David Flickinger,Willem Michiel,Pieter,Willian Hasse,vamX,Luke Pendergrass,webtim,Ghost,Rainer Wilmers,Nathan LeClaire,Will Dee,Cory Kujawski,John Detwiler,Fred von Graf,biorpg,Iucharbius,Imad Khwaja,Pierre Kircher,terasurfer,Asp the Wyvern,John Villwock,theTransient,zynix,Gabriel Tamborski,Fen Risland,Gabriel Puliatti,Matthew Berman,Pyrater,SuperWojo,Stephen Murray,Karl Bernard,Ajan Kanaga,Greatston Gnanesh,Junyu Yang。

感谢所有慷慨的赞助商和捐助者!

原始模型卡片:Meta's Llama 2 70B

Llama 2

Llama 2 是一系列预训练和微调的生成文本模型,规模从 70 亿到 700 亿个参数不等。这是70B预训练模型的转换为 Hugging Face Transformers 格式的存储库。其他模型的链接可以在底部的索引中找到。

模型详细信息

注意:使用此模型受 Meta 许可协议的约束。要下载模型权重和分词器,请访问 website ,并在此之前接受我们的许可协议。

Meta 开发并公开发布了 Llama 2 家族的大型语言模型(LLMs),这是一系列经过预训练和微调的生成文本模型,规模从 70 亿到 700 亿参数不等。我们微调的 LLMs,称为 Llama-2-Chat,在对话使用案例中进行了优化。在我们测试的大多数基准测试中,Llama-2-Chat 模型优于开源聊天模型,并在我们对有用性和安全性的人类评估中与一些受欢迎的闭源模型(如 ChatGPT 和 PaLM)处于同一水平。

模型开发者:Meta

变体:Llama 2 包括不同参数大小(7B、13B 和 70B)以及预训练和微调的变体。

输入:模型仅接受文本输入。

输出:模型生成文本输出。

模型架构:Llama 2 是一个自回归语言模型,使用优化的 transformer 架构。经过微调的版本采用有监督微调(SFT)和具有人类反馈的强化学习(RLHF)来与人类偏好(有用性和安全性)保持一致。

Training Data Params Content Length GQA Tokens LR
Llama 2 A new mix of publicly available online data 7B 4k 2.0T 3.0 x 10 -4
Llama 2 A new mix of publicly available online data 13B 4k 2.0T 3.0 x 10 -4
Llama 2 A new mix of publicly available online data 70B 4k 2.0T 1.5 x 10 -4

Llama 2 系列模型。标记计数仅提及预训练数据。所有模型使用全局批量大小为 4M 个标记进行训练。规模更大的模型(70B)使用了分组查询注意力(GQA)来提高推理的可扩展性。

模型日期:Llama 2 在 2023 年 1 月至 2023 年 7 月之间进行了训练。

状态:这是基于离线数据集训练的静态模型。随着我们根据社区反馈改善模型安全性,将发布未来版本的微调模型。

许可证:定制商业许可证可在 https://ai.meta.com/resources/models-and-libraries/llama-downloads/ 获取。

预期用途

预期用途案例:Llama 2 适用于商业和研究用途,以英语为主。微调模型适用于类似助手的聊天,而预训练模型可用于各种自然语言生成任务的适应。

为了获得聊天版本的预期功能和性能,需要按照特定的格式进行输入,包括 INST 和 <<SYS>> 标签,BOS 和 EOS 标记以及它们之间的空格和换行符(建议对输入调用 strip() 以避免双空格)。有关详细信息,请参阅我们在 Github 上的参考代码: chat_completion

不在范围内的用途:违反适用法律或法规的任何方式使用。使用其他语言。以接受 Llama 2 的适用使用政策和许可协议禁止的任何其他方式使用。

硬件和软件

训练因素:我们使用定制的训练库、Meta 的研究超级群集和生产群集进行预训练。微调、注释和评估也是在第三方云计算上进行的。

碳足迹:预训练使用了累计3.3M个GPU小时的计算资源,使用了A100-80GB型号的硬件(功耗为350-400W)。预计总排放量为539 tCO2eq,全部由 Meta 的可持续性计划抵消。

Time (GPU hours) Power Consumption (W) Carbon Emitted(tCO 2 eq)
Llama 2 7B 184320 400 31.22
Llama 2 13B 368640 400 62.44
Llama 2 70B 1720320 400 291.42
Total 3311616 539.00

在预训练期间的二氧化碳排放量。时间:训练每个模型所需的总 GPU 时间。功耗:每个 GPU 设备的峰值功耗容量,根据使用的 GPU 进行了调整,考虑到功耗使用效率。100% 的排放量由 Meta 的可持续性计划直接抵消,因为我们正在公开发布这些模型,所以不需要其他人承担预训练成本。

训练数据

概述:Llama 2 的预训练数据包括来自公开可获取的来源的 2 兆个标记的数据。微调数据包括公开可获取的指令数据集以及超过一百万个新的人工注释示例。预训练数据集和微调数据集都不包括 Meta 用户数据。

数据新鲜度:预训练数据的截止时间为2022年9月,但部分微调数据更近,最长可达2023年7月。

评估结果

在此部分中,我们报告了 Llama 1 和 Llama 2 模型在标准学术基准测试中的结果。对于所有评估,我们使用自己的内部评估库。

Model Size Code Commonsense Reasoning World Knowledge Reading Comprehension Math MMLU BBH AGI Eval
Llama 1 7B 14.1 60.8 46.2 58.5 6.95 35.1 30.3 23.9
Llama 1 13B 18.9 66.1 52.6 62.3 10.9 46.9 37.0 33.9
Llama 1 33B 26.0 70.0 58.4 67.6 21.4 57.8 39.8 41.7
Llama 1 65B 30.7 70.7 60.5 68.6 30.8 63.4 43.5 47.6
Llama 2 7B 16.8 63.9 48.9 61.3 14.6 45.3 32.6 29.3
Llama 2 13B 24.5 66.9 55.4 65.8 28.7 54.8 39.4 39.1
Llama 2 70B 37.5 71.9 63.6 69.4 35.2 68.9 51.2 54.2

在组合学术基准测试上的整体性能。代码:我们报告模型在 HumanEval 和 MBPP 上的平均 pass@1 分数。常识推理:我们报告 PIQA、SIQA、HellaSwag、WinoGrande、ARC 简单和挑战、OpenBookQA 和 CommonsenseQA 的平均分数。我们报告 CommonSenseQA 的 7-shot 结果和其他所有基准测试的 0-shot 结果。世界知识:我们对自然问题和 TriviaQA 进行 5-shot 性能评估,并报告平均分数。阅读理解:对于阅读理解,我们报告在 SQuAD、QuAC 和 BoolQ 上的 0-shot 平均分数。数学:我们报告对 GSM8K(8-shot)和 MATH(4-shot)基准测试的平均分数的前1名。

TruthfulQA Toxigen
Llama 1 7B 27.42 23.00
Llama 1 13B 41.74 23.08
Llama 1 33B 44.19 22.57
Llama 1 65B 48.71 21.77
Llama 2 7B 33.29 21.25
Llama 2 13B 41.86 26.10
Llama 2 70B 50.18 24.60

预训练 LLM 在自动安全性基准测试上的评估结果。对于 TruthfulQA,我们提供同时具有真实性和信息性的生成的百分比(越高越好)。对于 ToxiGen,我们提供有毒生成的百分比(越小越好)。

TruthfulQA Toxigen
Llama-2-Chat 7B 57.04 0.00
Llama-2-Chat 13B 62.18 0.00
Llama-2-Chat 70B 64.14 0.01

微调 LLM 在不同安全数据集上的评估结果。与上述度量标准定义相同。

伦理考虑和限制

Llama 2 是一项具有风险的新技术。迄今为止的测试是用英语进行的,还没有涵盖,也不能涵盖所有情况。因此,与所有 LLM 一样,无法提前预测 Llama 2 的潜在输出,模型在某些情况下可能会产生不准确、有偏见或其他令人反感的响应。因此,在部署任何 Llama 2 的应用程序之前,开发人员应根据其特定的模型应用进行安全性测试和调整。

请参阅《负责任使用指南》,可在 https://ai.meta.com/llama/responsible-use-guide/ 获取。

报告问题

请通过以下一种方式报告模型的任何软件“错误”或其他问题:

Llama 模型索引

Model Llama2 Llama2-hf Llama2-chat Llama2-chat-hf
7B 12322321 12323321 12324321 12325321
13B 12326321 12327321 12328321 12327321
70B 12330321 12331321 12332321 12331321