Chat & support: my new Discord server
Want to contribute? TheBloke's Patreon page
这些文件是用于 Meta's Llama 2 70B Chat 的fp16 pytorch模型文件。
它们是通过从Meta下载PTH文件,然后使用最新的Transformers 4.32.0.dev0(包括Llama 2 PR)从Git转换为HF格式而生成的: https://github.com/huggingface/transformers/pull/24891 。
转换的命令是:
python3 /workspace/venv/pytorch2/lib/python3.10/site-packages/transformers/models/llama/convert_llama_weights_to_hf.py --input_dir /workspace/git/llama/download --model_size 70B --output_dir /workspace/process/llama-2-70b-chat/source --safe_serialization true
文件保存在Safetensors格式中。
我上传这个仓库,因为我最初尝试使用 Meta Llama 2 70B Chat HF repo 创建GPTQs,但出现了奇怪的错误,表明权重不正确。但是使用最新的convert_llama_weights_to_hf.py脚本从PTH文件转换工作正常。
非常感谢 Chai 的William Beauchamp为这些量化提供硬件支持!
System: You are a helpful, respectful and honest assistant. Always answer as helpfully as possible, while being safe. Your answers should not include any harmful, unethical, racist, sexist, toxic, dangerous, or illegal content. Please ensure that your responses are socially unbiased and positive in nature. If a question does not make any sense, or is not factually coherent, explain why instead of answering something not correct. If you don't know the answer to a question, please don't share false information. User: {prompt} Assistant:
如需进一步支持和讨论这些模型和AI,欢迎加入我们的社区:
感谢 chirper.ai 团队!
很多人问我是否可以进行贡献。我很高兴提供模型并帮助人们,并愿意花更多的时间来提供支持,并开始进行新的项目,如微调/训练等。
如果您能并愿意进行贡献,我将非常感激,并将帮助我继续提供更多模型,并开始新的AI项目。
捐赠者将获得在LLM/模型问题和请求方面的优先支持,以及访问私人Discord房间和其他福利。
特别感谢:CarbonQuill的Luke,Aemon Algiz。
感谢所有慷慨的赞助者和捐助者!
Llama 2是一系列预训练和微调的生成性文本模型,规模从70亿到700亿参数不等。这是70B微调模型的存储库,针对对话使用案例进行了优化,并转换为Hugging Face Transformers格式。其他模型的链接可以在底部的目录中找到。
注意:使用该模型受Meta许可证的管理。为了下载模型权重和分词器,请访问 website 并接受我们的许可证后再请求访问。
Meta开发并公开发布了Llama 2系列大规模语言模型(LLM),这是一系列预训练和微调的生成性文本模型,规模从70亿到700亿参数不等。我们的微调的LLM模型称为Llama-2-Chat,针对对话使用案例进行了优化。在我们的大多数基准测试和有关帮助性和安全性的人工评估中,Llama-2-Chat模型的性能超过了开源聊天模型,并且与一些流行的闭源模型(如ChatGPT和PaLM)相当。
模型开发者:Meta
变体:Llama 2以不同的参数大小(7B、13B和70B)以及预训练和微调的变体提供。
输入:模型仅接受文本输入。
输出:模型仅生成文本。
模型架构:Llama 2是一种自回归语言模型,使用了优化的Transformer架构。微调版本使用了监督微调(SFT)和强化学习与人工反馈(RLHF)来与有益和安全性的人类偏好保持一致。
Training Data | Params | Content Length | GQA | Tokens | LR | |
---|---|---|---|---|---|---|
Llama 2 | A new mix of publicly available online data | 7B | 4k | ✗ | 2.0T | 3.0 x 10 -4 |
Llama 2 | A new mix of publicly available online data | 13B | 4k | ✗ | 2.0T | 3.0 x 10 -4 |
Llama 2 | A new mix of publicly available online data | 70B | 4k | ✔ | 2.0T | 1.5 x 10 -4 |
Llama 2系列模型。标记计数仅适用于预训练数据。所有模型的全局批处理大小为4M个标记。规模较大的模型(70B)使用了Grouped-Query Attention(GQA)以提高推理可扩展性。
模型日期:Llama 2是在2023年1月至2023年7月之间进行训练的。
状态:这是在离线数据集上训练的静态模型。随着我们根据社区反馈改进模型的安全性,将发布微调模型的未来版本。
许可证:自定义商业许可证可在 https://ai.meta.com/resources/models-and-libraries/llama-downloads/ 处获得。
预期用例:Llama 2旨在用于英语的商业和研究用途。微调模型适用于类似助手的聊天,而预训练模型可以用于各种自然语言生成任务。
不包括在范围内的用途:违反适用法律或法规的任何使用方式(包括贸易合规法)。在英语以外的语言中使用。以接受Llama 2的可接受使用政策和许可协议所禁止的任何其他方式使用。
训练因素:我们使用自定义训练库、Meta的研究超级集群和生产集群进行预训练。微调、注释和评估也是在第三方云计算上执行的。
碳足迹:预训练使用了累计3.3M GPU小时的计算,在A100-80GB型号(TDP为350-400W)的硬件上进行。估计总排放量为539 tCO2eq,其中100%由Meta的可持续性计划抵消。
Time (GPU hours) | Power Consumption (W) | Carbon Emitted(tCO 2 eq) | |
---|---|---|---|
Llama 2 7B | 184320 | 400 | 31.22 |
Llama 2 13B | 368640 | 400 | 62.44 |
Llama 2 70B | 1720320 | 400 | 291.42 |
Total | 3311616 | 539.00 |
预训练期间的CO2排放量。时间:训练每个模型所需的总GPU时间。功耗:用于GPU设备的峰值功耗容量,根据功率使用效率进行调整。100%的排放量由Meta的可持续性计划直接抵消,由于我们正在公开发布这些模型,因此其他人不需要承担预训练成本。
概述:Llama 2的预训练数据包含来自公开可用来源的2万亿个标记的数据。微调数据包括公开可获得的指令数据集以及超过100万个新的人工注释示例。预训练数据和微调数据集都不包括Meta用户数据。
数据新鲜度:预训练数据的截止日期是2022年9月,但某些微调数据更近,最多到2023年7月。
在本部分,我们报告了Llama 1和Llama 2模型在标准学术基准测试中的结果。对于所有评估,我们使用我们内部评估库。
Model | Size | Code | Commonsense Reasoning | World Knowledge | Reading Comprehension | Math | MMLU | BBH | AGI Eval |
---|---|---|---|---|---|---|---|---|---|
Llama 1 | 7B | 14.1 | 60.8 | 46.2 | 58.5 | 6.95 | 35.1 | 30.3 | 23.9 |
Llama 1 | 13B | 18.9 | 66.1 | 52.6 | 62.3 | 10.9 | 46.9 | 37.0 | 33.9 |
Llama 1 | 33B | 26.0 | 70.0 | 58.4 | 67.6 | 21.4 | 57.8 | 39.8 | 41.7 |
Llama 1 | 65B | 30.7 | 70.7 | 60.5 | 68.6 | 30.8 | 63.4 | 43.5 | 47.6 |
Llama 2 | 7B | 16.8 | 63.9 | 48.9 | 61.3 | 14.6 | 45.3 | 32.6 | 29.3 |
Llama 2 | 13B | 24.5 | 66.9 | 55.4 | 65.8 | 28.7 | 54.8 | 39.4 | 39.1 |
Llama 2 | 70B | 37.5 | 71.9 | 63.6 | 69.4 | 35.2 | 68.9 | 51.2 | 54.2 |
分组学术基准测试的整体性能。代码:我们报告模型在HumanEval和MBPP上的平均pass@1分数。常识推理:我们报告PIQA、SIQA、HellaSwag、WinoGrande、ARC easy和challenge、OpenBookQA和CommonsenseQA的平均值。我们对CommonsenseQA进行了7-shot结果评估,对其他所有基准测试进行了0-shot结果评估。世界知识:我们评估在NaturalQuestions和TriviaQA上的5-shot表现,并报告平均值。阅读理解:对于阅读理解,我们报告SQuAD、QuAC和BoolQ的0-shot平均值。数学:我们报告GSM8K(8-shot)和数学(4-shot)基准测试的平均值(顶级1)。
TruthfulQA | Toxigen | ||
---|---|---|---|
Llama 1 | 7B | 27.42 | 23.00 |
Llama 1 | 13B | 41.74 | 23.08 |
Llama 1 | 33B | 44.19 | 22.57 |
Llama 1 | 65B | 48.71 | 21.77 |
Llama 2 | 7B | 33.29 | 21.25 |
Llama 2 | 13B | 41.86 | 26.10 |
Llama 2 | 70B | 50.18 | 24.60 |
预训练LLM在自动安全性基准测试上的评估。对于TruthfulQA,我们介绍了生成的信息量和真实性的百分比(越高越好)。对于ToxiGen,我们介绍了有害生成的百分比(越小越好)。
TruthfulQA | Toxigen | ||
---|---|---|---|
Llama-2-Chat | 7B | 57.04 | 0.00 |
Llama-2-Chat | 13B | 62.18 | 0.00 |
Llama-2-Chat | 70B | 64.14 | 0.01 |
在不同安全数据集上对微调LLM的评估。度量定义与上述相同。
Llama 2是一项具有风险的新技术。迄今为止的测试仅在英语中进行,并且未涵盖所有场景,也不能涵盖所有场景。因此,与所有LLM一样,Llama 2的潜在输出无法提前预测,并且在某些情况下,该模型可能会产生不准确、有偏差或其他令人反感的响应。因此,在部署任何Llama 2应用程序之前,开发人员应针对其特定应用程序进行安全性测试和调整。
请参阅 https://ai.meta.com/llama/responsible-use-guide/ 提供的负责任使用指南。
请通过以下一种方式报告模型的任何软件“错误”或其他问题:
Model | Llama2 | Llama2-hf | Llama2-chat | Llama2-chat-hf |
---|---|---|---|---|
7B | 12321321 | 12322321 | 12323321 | 12324321 |
13B | 12325321 | 12326321 | 12327321 | 12326321 |
70B | 12329321 | 12330321 | 12331321 | 12330321 |