模型:
TheBloke/LLaMa-7B-GGML
Chat & support: my new Discord server
Want to contribute? TheBloke's Patreon page
这些文件是用于 Meta's LLaMA 7b 的GGML格式模型文件。
GGML文件用于使用 llama.cpp 和支持此格式的库和用户界面进行CPU + GPU推断,例如:
这些文件是使用由 Latitude.sh 提供的硬件进行量化的。
{prompt}
这些方法保证与自从5月下旬以来发布的任何用户界面、工具和库兼容。它们可能很快会被新的k-quant方法取代。
这些新的量化方法截至6月6日、提交2d43387,与llama.cpp兼容。
它们现在也与最近发布的text-generation-webui、KoboldCpp、llama-cpp-python、ctransformers、rustformers和大多数其他工具和库兼容。有关其他工具和库的兼容性,请查阅它们的文档。
提供的新方法有:
请参考下面的提供的文件表,了解哪些文件使用哪些方法以及如何使用。
Name | Quant method | Bits | Size | Max RAM required | Use case |
---|---|---|---|---|---|
llama-7b.ggmlv3.q2_K.bin | q2_K | 2 | 2.80 GB | 5.30 GB | New k-quant method. Uses GGML_TYPE_Q4_K for the attention.vw and feed_forward.w2 tensors, GGML_TYPE_Q2_K for the other tensors. |
llama-7b.ggmlv3.q3_K_L.bin | q3_K_L | 3 | 3.55 GB | 6.05 GB | New k-quant method. Uses GGML_TYPE_Q5_K for the attention.wv, attention.wo, and feed_forward.w2 tensors, else GGML_TYPE_Q3_K |
llama-7b.ggmlv3.q3_K_M.bin | q3_K_M | 3 | 3.23 GB | 5.73 GB | New k-quant method. Uses GGML_TYPE_Q4_K for the attention.wv, attention.wo, and feed_forward.w2 tensors, else GGML_TYPE_Q3_K |
llama-7b.ggmlv3.q3_K_S.bin | q3_K_S | 3 | 2.90 GB | 5.40 GB | New k-quant method. Uses GGML_TYPE_Q3_K for all tensors |
llama-7b.ggmlv3.q4_0.bin | q4_0 | 4 | 3.79 GB | 6.29 GB | Original quant method, 4-bit. |
llama-7b.ggmlv3.q4_1.bin | q4_1 | 4 | 4.21 GB | 6.71 GB | Original quant method, 4-bit. Higher accuracy than q4_0 but not as high as q5_0. However has quicker inference than q5 models. |
llama-7b.ggmlv3.q4_K_M.bin | q4_K_M | 4 | 4.05 GB | 6.55 GB | New k-quant method. Uses GGML_TYPE_Q6_K for half of the attention.wv and feed_forward.w2 tensors, else GGML_TYPE_Q4_K |
llama-7b.ggmlv3.q4_K_S.bin | q4_K_S | 4 | 3.79 GB | 6.29 GB | New k-quant method. Uses GGML_TYPE_Q4_K for all tensors |
llama-7b.ggmlv3.q5_0.bin | q5_0 | 5 | 4.63 GB | 7.13 GB | Original quant method, 5-bit. Higher accuracy, higher resource usage and slower inference. |
llama-7b.ggmlv3.q5_1.bin | q5_1 | 5 | 5.06 GB | 7.56 GB | Original quant method, 5-bit. Even higher accuracy, resource usage and slower inference. |
llama-7b.ggmlv3.q5_K_M.bin | q5_K_M | 5 | 4.77 GB | 7.27 GB | New k-quant method. Uses GGML_TYPE_Q6_K for half of the attention.wv and feed_forward.w2 tensors, else GGML_TYPE_Q5_K |
llama-7b.ggmlv3.q5_K_S.bin | q5_K_S | 5 | 4.63 GB | 7.13 GB | New k-quant method. Uses GGML_TYPE_Q5_K for all tensors |
llama-7b.ggmlv3.q6_K.bin | q6_K | 6 | 5.53 GB | 8.03 GB | New k-quant method. Uses GGML_TYPE_Q8_K for all tensors - 6-bit quantization |
llama-7b.ggmlv3.q8_0.bin | q8_0 | 8 | 7.16 GB | 9.66 GB | Original quant method, 8-bit. Almost indistinguishable from float16. High resource use and slow. Not recommended for most users. |
注意:以上的RAM数字假设没有GPU卸载。如果图层被卸载到GPU,这将减少RAM使用量并使用VRAM。
我使用以下命令行;根据您的偏好和需求进行调整:
./main -t 10 -ngl 32 -m llama-7b.ggmlv3.q4_0.bin --color -c 2048 --temp 0.7 --repeat_penalty 1.1 -n -1 -p "### Instruction: Write a story about llamas\n### Response:"
将 -t 10 更改为您拥有的物理CPU核心数。例如,如果您的系统有8个核心/16个线程,使用 -t 8 。
将 -ngl 32 更改为要卸载到GPU的图层数量。如果没有GPU加速,请删除该参数。
如果您想要进行对话式交流,请将 -p <PROMPT> 参数替换为 -i -ins
更多说明请参阅: text-generation-webui/docs/llama.cpp-models.md 。
如需进一步支持,并就这些模型和人工智能进行讨论,请加入我们:
感谢 chirper.ai 团队!
有很多人问我是否可以做出贡献。我喜欢提供模型和帮助人们,非常感谢您的贡献,这将使我能够更多地投入时间进行模型的提供,并开始进行新的AI项目,如微调/训练。
如果您有能力并愿意进行贡献,我将非常感激,并帮助我继续提供更多模型,并开始新的AI项目。
捐赠者将优先获得有关任何AI/LLM/模型问题和请求的支持,访问私人Discord房间以及其他福利。
特别感谢:CarbonQuill的Luke,Aemon Algiz。
Patreon特别提到:Space Cruiser,Nikolai Manek,Sam,Chris McCloskey,Rishabh Srivastava,Kalila,Spiking Neurons AB,Khalefa Al-Ahmad,WelcomeToTheClub,Chadd,Lone Striker,Viktor Bowallius,Edmond Seymore,Ai Maven,Chris Smitley,Dave,Alexandros Triantafyllidis,Luke @flexchar,Elle,ya boyyy,Talal Aujan,Alex,Jonathan Leane,Deep Realms,Randy H,subjectnull,Preetika Verma,Joseph William Delisle,Michael Levine,chris gileta,K,Oscar Rangel,LangChain4j,Trenton Dambrowitz,Eugene Pentland,Johann-Peter Hartmann,Femi Adebogun,Illia Dulskyi,senxiiz,Daniel P. Andersen,Sean Connelly,Artur Olbinski,RoA,Mano Prime,Derek Yates,Raven Klaugh,David Flickinger,Willem Michiel,Pieter,Willian Hasse,vamX,Luke Pendergrass,webtim,Ghost,Rainer Wilmers,Nathan LeClaire,Will Dee,Cory Kujawski,John Detwiler,Fred von Graf,biorpg,Iucharbius,Imad Khwaja,Pierre Kircher,terasurfer,Asp the Wyvern,John Villwock,theTransient,zynix,Gabriel Tamborski,Fen Risland,Gabriel Puliatti,Matthew Berman,Pyrater,SuperWojo,Stephen Murray,Karl Bernard,Ajan Kanaga,Greatston Gnanesh,Junyu Yang。
感谢所有慷慨的资助者和捐赠者!
这包含LLaMA-7b模型的权重。此模型采用非商业许可证(请参阅LICENSE文件)。只有在通过填写 this form 获取了模型访问权限,但要么丢失了权重的副本,要么将其转换为Transformers格式时遇到了问题时,才应使用此代码库。