模型:
TheBloke/LLaMa-13B-GGML
Chat & support: my new Discord server
Want to contribute? TheBloke's Patreon page
这些文件是用于 Meta's LLaMA 13b 的GGML格式模型文件。
GGML文件用于使用 llama.cpp 和支持此格式的库和UI进行CPU + GPU推断,例如:
这些文件使用由 Latitude.sh 提供的硬件进行量化。
{prompt}
这些方法保证与自今年5月末发布以来的任何UI、工具和库兼容。由于新的k-quant方法基本上取代了这些方法,它们可能很快就会被淘汰。
截至6月6日的llama.cpp的提交2d43387,这些新的量化方法与llama.cpp兼容。
它们现在还与最近发布的text-generation-webui、KoboldCpp、llama-cpp-python、ctransformers、rustformers和其他大多数工具和库兼容。要了解与其他工具和库的兼容性,请查阅它们的文档。
可用的新方法有:
请参阅下面的提供的文件表,了解使用哪种方法以及如何使用。
Name | Quant method | Bits | Size | Max RAM required | Use case |
---|---|---|---|---|---|
llama-13b.ggmlv3.q2_K.bin | q2_K | 2 | 5.43 GB | 7.93 GB | New k-quant method. Uses GGML_TYPE_Q4_K for the attention.vw and feed_forward.w2 tensors, GGML_TYPE_Q2_K for the other tensors. |
llama-13b.ggmlv3.q3_K_L.bin | q3_K_L | 3 | 6.87 GB | 9.37 GB | New k-quant method. Uses GGML_TYPE_Q5_K for the attention.wv, attention.wo, and feed_forward.w2 tensors, else GGML_TYPE_Q3_K |
llama-13b.ggmlv3.q3_K_M.bin | q3_K_M | 3 | 6.25 GB | 8.75 GB | New k-quant method. Uses GGML_TYPE_Q4_K for the attention.wv, attention.wo, and feed_forward.w2 tensors, else GGML_TYPE_Q3_K |
llama-13b.ggmlv3.q3_K_S.bin | q3_K_S | 3 | 5.59 GB | 8.09 GB | New k-quant method. Uses GGML_TYPE_Q3_K for all tensors |
llama-13b.ggmlv3.q4_0.bin | q4_0 | 4 | 7.32 GB | 9.82 GB | Original quant method, 4-bit. |
llama-13b.ggmlv3.q4_1.bin | q4_1 | 4 | 8.14 GB | 10.64 GB | Original quant method, 4-bit. Higher accuracy than q4_0 but not as high as q5_0. However has quicker inference than q5 models. |
llama-13b.ggmlv3.q4_K_M.bin | q4_K_M | 4 | 7.82 GB | 10.32 GB | New k-quant method. Uses GGML_TYPE_Q6_K for half of the attention.wv and feed_forward.w2 tensors, else GGML_TYPE_Q4_K |
llama-13b.ggmlv3.q4_K_S.bin | q4_K_S | 4 | 7.32 GB | 9.82 GB | New k-quant method. Uses GGML_TYPE_Q4_K for all tensors |
llama-13b.ggmlv3.q5_0.bin | q5_0 | 5 | 8.95 GB | 11.45 GB | Original quant method, 5-bit. Higher accuracy, higher resource usage and slower inference. |
llama-13b.ggmlv3.q5_1.bin | q5_1 | 5 | 9.76 GB | 12.26 GB | Original quant method, 5-bit. Even higher accuracy, resource usage and slower inference. |
llama-13b.ggmlv3.q5_K_M.bin | q5_K_M | 5 | 9.21 GB | 11.71 GB | New k-quant method. Uses GGML_TYPE_Q6_K for half of the attention.wv and feed_forward.w2 tensors, else GGML_TYPE_Q5_K |
llama-13b.ggmlv3.q5_K_S.bin | q5_K_S | 5 | 8.95 GB | 11.45 GB | New k-quant method. Uses GGML_TYPE_Q5_K for all tensors |
llama-13b.ggmlv3.q6_K.bin | q6_K | 6 | 10.68 GB | 13.18 GB | New k-quant method. Uses GGML_TYPE_Q8_K for all tensors - 6-bit quantization |
llama-13b.ggmlv3.q8_0.bin | q8_0 | 8 | 13.83 GB | 16.33 GB | Original quant method, 8-bit. Almost indistinguishable from float16. High resource use and slow. Not recommended for most users. |
注意:上述RAM数值不包括GPU卸载。如果将图层卸载到GPU,这将减少RAM使用量并使用VRAM。
我使用以下命令行;根据您的喜好和需求进行调整:
./main -t 10 -ngl 32 -m llama-13b.ggmlv3.q4_0.bin --color -c 2048 --temp 0.7 --repeat_penalty 1.1 -n -1 -p "### Instruction: Write a story about llamas\n### Response:"
将 -t 10 更改为您拥有的物理CPU核心数。例如,如果您的系统有8个核心/16个线程,使用 -t 8 。
将 -ngl 32 更改为要卸载到GPU的图层数量。如果没有GPU加速,请将其删除。
如果您想进行聊天式的对话,请用 -i -ins 替换 -p <PROMPT> 参数
这里有更详细的说明: text-generation-webui/docs/llama.cpp-models.md 。
如需进一步支持并讨论这些模型和人工智能,请加入我们的Discord:
感谢 chirper.ai 团队!
我有很多人问我是否可以贡献。我喜欢提供模型和帮助别人,并很乐意能够更多地花时间这样做,以及扩展到新的项目,如微调/训练。
如果您有能力并愿意进行贡献,我将非常感激,并将帮助我继续提供更多的模型,并开始进行新的AI项目。
捐赠者将优先获得对任何AI/LLM/模型问题和请求的支持,访问私人Discord房间以及其他福利。
特别感谢 :CarbonQuill的Luke,Aemon Algiz。
Patreon特别提及 :Space Cruiser,Nikolai Manek,Sam,Chris McCloskey,Rishabh Srivastava,Kalila,Spiking Neurons AB,Khalefa Al-Ahmad,WelcomeToTheClub,Chadd,Lone Striker,Viktor Bowallius,Edmond Seymore,Ai Maven,Chris Smitley,Dave,Alexandros Triantafyllidis,Luke @flexchar,Elle,ya boyyy,Talal Aujan,Alex,Jonathan Leane,Deep Realms,Randy H,subjectnull,Preetika Verma,Joseph William Delisle,Michael Levine,chris gileta,K,Oscar Rangel,LangChain4j,Trenton Dambrowitz,Eugene Pentland,Johann-Peter Hartmann,Femi Adebogun,Illia Dulskyi,senxiiz,Daniel P. Andersen,Sean Connelly,Artur Olbinski,RoA,Mano Prime,Derek Yates,Raven Klaugh,David Flickinger,Willem Michiel,Pieter,Willian Hasse,vamX,Luke Pendergrass,webtim,Ghost,Rainer Wilmers,Nathan LeClaire,Will Dee,Cory Kujawski,John Detwiler,Fred von Graf,biorpg,Iucharbius,Imad Khwaja,Pierre Kircher,terasurfer,Asp the Wyvern,John Villwock,theTransient,zynix,Gabriel Tamborski,Fen Risland,Gabriel Puliatti,Matthew Berman,Pyrater,SuperWojo,Stephen Murray,Karl Bernard,Ajan Kanaga,Greatston Gnanesh,Junyu Yang。
感谢所有慷慨的赞助者和捐赠者!
这包含LLaMA-13b模型的权重。此模型根据非商业许可使用(请参阅许可证文件)。如果您通过填写 this form 获得访问模型的权限,但是要么丢失了权重副本,要么在将其转换为Transformers格式时遇到了问题,您才应该使用此存储库。