英文

Chat & support: my new Discord server

Want to contribute? TheBloke's Patreon page

Meta's Llama 2 13B fp16

这些文件是用于 Meta's Llama 2 13B 的fp16格式的模型文件。

它们是通过从Meta下载PTH文件,然后使用最新的Transformers 4.32.0.dev0(来自Git)进行转换为HF格式的,包括Llama 2 PR的: https://github.com/huggingface/transformers/pull/24891

转换命令如下:

 python3 /workspace/venv/pytorch2/lib/python3.10/site-packages/transformers/models/llama/convert_llama_weights_to_hf.py --input_dir /workspace/git/llama/download --model_size 13B --output_dir /workspace/process/llama-2-13b/source

可用的存储库

提示模板:无

{prompt}

Discord

如需进一步支持和讨论这些模型和AI事务,请加入我们:

TheBloke AI's Discord server

感谢和如何贡献

感谢 chirper.ai 团队!

我有很多人问我是否可以进行贡献。我喜欢提供模型并帮助人们,非常乐意能有更多时间做这些,并且扩展到新的项目,如模型微调/训练等。

如果您能够并且愿意进行贡献,将不胜感激,并将帮助我继续提供更多模型,并开始新的AI项目。

赞助者将优先获得有关AI/LLM/模型问题和请求的支持,访问私人Discord房间以及其他福利。

特别感谢:来自CarbonQuill的Luke,Aemon Algiz。

Patreon特别提及:Space Cruiser,Nikolai Manek,Sam,Chris McCloskey,Rishabh Srivastava,Kalila,Spiking Neurons AB,Khalefa Al-Ahmad,WelcomeToTheClub,Chadd,Lone Striker,Viktor Bowallius,Edmond Seymore,Ai Maven,Chris Smitley,Dave,Alexandros Triantafyllidis,Luke @flexchar,Elle,ya boyyy,Talal Aujan,Alex,Jonathan Leane,Deep Realms,Randy H,subjectnull,Preetika Verma,Joseph William Delisle,Michael Levine,chris gileta,K,Oscar Rangel,LangChain4j,Trenton Dambrowitz,Eugene Pentland,Johann-Peter Hartmann,Femi Adebogun,Illia Dulskyi,senxiiz,Daniel P. Andersen,Sean Connelly,Artur Olbinski,RoA,Mano Prime,Derek Yates,Raven Klaugh,David Flickinger,Willem Michiel,Pieter,Willian Hasse,vamX,Luke Pendergrass,webtim,Ghost,Rainer Wilmers,Nathan LeClaire,Will Dee,Cory Kujawski,John Detwiler,Fred von Graf,biorpg,Iucharbius,Imad Khwaja,Pierre Kircher,terasurfer,Asp the Wyvern,John Villwock,theTransient,zynix,Gabriel Tamborski,Fen Risland,Gabriel Puliatti,Matthew Berman,Pyrater,SuperWojo,Stephen Murray,Karl Bernard,Ajan Kanaga,Greatston Gnanesh,Junyu杨。

感谢所有慷慨的赞助者和捐赠者!

原始模型卡片:Meta's Llama 2 13B

Llama 2

Llama 2是一系列预训练和微调的生成文本模型,规模从70亿到700亿参数不等。这是13B预训练模型的代码库,已转换为Hugging Face Transformers格式。其他模型的链接可以在底部的索引中找到。

模型详情

注意:使用该模型受Meta许可证的管辖。要下载模型权重和分词器,请访问 website 并接受我们的许可协议。

Meta开发了并公开发布了Llama 2系列大型语言模型(LLM),这是一系列规模从70亿到700亿的预训练和微调的生成文本模型。我们微调的LLM称为Llama-2-Chat,专为对话使用场景进行了优化。在我们测试的大多数基准测试中,Llama-2-Chat模型的性能优于开源聊天模型,并且在我们的人工评估中,其有益性和安全性与一些流行的闭源模型(如ChatGPT和PaLM)相当。

模型开发者 Meta

变体 Llama 2提供了不同规模(7B、13B和70B)的参数大小以及预训练和微调变体。

输入 模型仅接受文本输入。

输出 模型生成文本。

模型架构 Llama 2是一种自回归语言模型,使用优化的Transformer架构。经过微调的版本使用有监督的微调(SFT)和基于人类反馈的强化学习(RLHF)来与人类对有益性和安全性的偏好保持一致。

Training Data Params Content Length GQA Tokens LR
Llama 2 A new mix of publicly available online data 7B 4k 2.0T 3.0 x 10 -4
Llama 2 A new mix of publicly available online data 13B 4k 2.0T 3.0 x 10 -4
Llama 2 A new mix of publicly available online data 70B 4k 2.0T 1.5 x 10 -4

Llama 2系列模型。标记计数仅针对预训练数据。所有模型均以全局批处理大小为4M进行训练。更大的模型- 70B--使用分组查询注意力(GQA)以提高推理可伸缩性。

模型日期 Llama 2的训练时间为2023年1月至2023年7月。

状态 这是基于离线数据集训练的静态模型。随着我们通过社区反馈改进模型的安全性,将发布调整后的模型的未来版本。

许可证 提供自定义商业许可证: https://ai.meta.com/resources/models-and-libraries/llama-downloads/

预期用途

预期用例 Llama 2用于商业和研究用途,用于英语。微调模型适用于类似助手的聊天,而预训练模型可以用于各种自然语言生成任务。

要获得聊天版本的期望功能和性能,需要遵循特定的格式,包括INST和<<SYS>>标签,BOS和EOS令牌,以及它们之间的空格和换行符(建议在输入时调用strip()以避免双空格)。有关详细信息,请参阅我们在GitHub上的参考代码: chat_completion

超出范围的用途 使用违反适用法律或法规(包括贸易合规法律)的任何方式。在非英语语言中使用。以不符合Llama 2可接受使用政策和许可协议的任何其他方式使用。

硬件和软件

训练因素我们使用自定义训练库、Meta的研究超级计算机和生产集群进行预训练。微调、注释和评估也在第三方云计算上进行。

碳足迹预训练使用了累计330万GPU小时的计算,使用的硬件类型为A100-80GB(TDP为350-400W)。估计总排放量为539 tCO2eq,100%由Meta的可持续发展计划抵消。

Time (GPU hours) Power Consumption (W) Carbon Emitted(tCO 2 eq)
Llama 2 7B 184320 400 31.22
Llama 2 13B 368640 400 62.44
Llama 2 70B 1720320 400 291.42
Total 3311616 539.00

预训练期间的CO 2 排放。时间:训练每个模型所需的总GPU时间。功耗:用于所使用的GPU设备的峰值功率容量,经过功耗使用效率调整。100%的排放量由Meta的可持续发展计划直接抵消,因为我们公开发布这些模型,所以不需要他人承担预训练成本。

训练数据

概述 Llama 2是在来自公开来源的2万亿个令牌的数据上进行预训练。微调数据包括公开可用的指令数据集,以及一百多万个新的人工注释示例。预训练数据集和微调数据集均不包含Meta用户数据。

数据新鲜度 预训练数据截止到2022年9月,但一些微调数据更近,最晚到2023年7月。

评估结果

在本部分中,我们报告了Llama 1和Llama 2模型在标准学术基准测试上的结果。对于所有评估,我们使用我们的内部评估库。

Model Size Code Commonsense Reasoning World Knowledge Reading Comprehension Math MMLU BBH AGI Eval
Llama 1 7B 14.1 60.8 46.2 58.5 6.95 35.1 30.3 23.9
Llama 1 13B 18.9 66.1 52.6 62.3 10.9 46.9 37.0 33.9
Llama 1 33B 26.0 70.0 58.4 67.6 21.4 57.8 39.8 41.7
Llama 1 65B 30.7 70.7 60.5 68.6 30.8 63.4 43.5 47.6
Llama 2 7B 16.8 63.9 48.9 61.3 14.6 45.3 32.6 29.3
Llama 2 13B 24.5 66.9 55.4 65.8 28.7 54.8 39.4 39.1
Llama 2 70B 37.5 71.9 63.6 69.4 35.2 68.9 51.2 54.2

分组学术基准测试的整体性能。 代码:我们报告模型在HumanEval和MBPP上的平均pass@1分数。 常识推理:我们报告PIQA、SIQA、HellaSwag、WinoGrande、ARC easy和challenge、OpenBookQA和CommonsenseQA的平均值。我们对CommonsenseQA进行了7-shot测试,其余所有基准测试均为0-shot测试。 世界知识:我们对NaturalQuestions和TriviaQA进行了5-shot性能评估,并报告平均值。 阅读理解:对于阅读理解,我们报告了在SQuAD、QuAC和BoolQ上的0-shot平均值。 MATH:我们报告了GSM8K(8-shot)和MATH(4-shot)基准测试的平均值。

TruthfulQA Toxigen
Llama 1 7B 27.42 23.00
Llama 1 13B 41.74 23.08
Llama 1 33B 44.19 22.57
Llama 1 65B 48.71 21.77
Llama 2 7B 33.29 21.25
Llama 2 13B 41.86 26.10
Llama 2 70B 50.18 24.60

在自动安全基准测试上对预训练的LLM进行评估。对于TruthfulQA,我们报告的是真实和信息性生成的百分比(越高越好)。对于ToxiGen,我们报告有害生成的百分比(越小越好)。

TruthfulQA Toxigen
Llama-2-Chat 7B 57.04 0.00
Llama-2-Chat 13B 62.18 0.00
Llama-2-Chat 70B 64.14 0.01

在不同安全数据集上对微调的LLM进行评估。同上述度量定义。

道德考虑和限制

Llama 2是一项具有风险的新技术。迄今为止的测试只涵盖了英语,并且未涵盖,也不能涵盖所有情况。因此,与所有LLM一样,Llama 2的潜在输出无法预测,模型有时可能会产生不准确、带偏见或其他令人反感的响应。因此,在部署Llama 2的任何应用程序之前,开发人员应根据其特定的模型应用程序执行安全测试和调整。

请参阅可在 https://ai.meta.com/llama/responsible-use-guide/ 上获得的负责任使用指南。

报告问题

请通过以下方式之一报告模型的任何软件“错误”或其他问题:

Llama模型索引

Model Llama2 Llama2-hf Llama2-chat Llama2-chat-hf
7B 12320321 12321321 12322321 12323321
13B 12324321 12325321 12326321 12325321
70B 12328321 12329321 12330321 12329321