模型:

TheBloke/LLaMa-7B-GGML

英文

Chat & support: my new Discord server

Want to contribute? TheBloke's Patreon page

Meta's LLaMA 7b GGML

这些文件是用于 Meta's LLaMA 7b 的GGML格式模型文件。

GGML文件用于使用 llama.cpp 和支持此格式的库和用户界面进行CPU + GPU推断,例如:

  • KoboldCpp ,一个功能强大的GGML网络用户界面,开箱即用的完全GPU加速。尤其适用于故事叙述。
  • LoLLMS Web UI ,一个通过c_transformers后端进行GPU加速的出色的网络用户界面。
  • LM Studio ,一个功能齐全的本地GUI。支持macOS上的完全GPU加速。也支持Windows,但没有GPU加速。
  • text-generation-webui ,最受欢迎的网络用户界面。需要额外的步骤通过llama.cpp后端启用GPU加速。
  • ctransformers ,一个带有LangChain支持和与OpenAI兼容的AI服务器的Python库。
  • llama-cpp-python ,一个带有OpenAI兼容的API服务器的Python库。

这些文件是使用由 Latitude.sh 提供的硬件进行量化的。

可用的代码库

提示模板:无

{prompt}

兼容性

原始的llama.cpp量化方法:q4_0、q4_1、q5_0、q5_1、q8_0

这些方法保证与自从5月下旬以来发布的任何用户界面、工具和库兼容。它们可能很快会被新的k-quant方法取代。

新的k-quant方法:q2_K、q3_K_S、q3_K_M、q3_K_L、q4_K_S、q4_K_M、q5_K_S、q6_K

这些新的量化方法截至6月6日、提交2d43387,与llama.cpp兼容。

它们现在也与最近发布的text-generation-webui、KoboldCpp、llama-cpp-python、ctransformers、rustformers和大多数其他工具和库兼容。有关其他工具和库的兼容性,请查阅它们的文档。

新的k-quant方法的解释

点击查看详细信息

提供的新方法有:

  • GGML_TYPE_Q2_K - 超块中包含16个块,每个块有16个权重的“类型1”2位量化。块的缩放和最小值使用4位进行量化。每个权重实际上使用2.5625位(bpw)。
  • GGML_TYPE_Q3_K - 超块中包含16个块,每个块有16个权重的“类型0”3位量化。缩放使用6位进行量化。每个权重实际上使用3.4375位(bpw)。
  • GGML_TYPE_Q4_K - 超块中包含8个块,每个块有32个权重的“类型1”4位量化。块的缩放和最小值使用6位进行量化。每个权重实际上使用4.5位(bpw)。
  • GGML_TYPE_Q5_K - “类型1”5位量化。与GGML_TYPE_Q4_K相同的超块结构,结果为每个权重使用5.5位(bpw)。
  • GGML_TYPE_Q6_K - 超块中包含16个块,每个块有16个权重的“类型0”6位量化。缩放使用8位进行量化。每个权重实际上使用6.5625位(bpw)。
  • GGML_TYPE_Q8_K - “类型0”8位量化。仅用于量化中间结果。与现有的Q8_0的区别在于块大小为256。对于此量化类型,实现了所有2-6位点积。

请参考下面的提供的文件表,了解哪些文件使用哪些方法以及如何使用。

提供的文件

Name Quant method Bits Size Max RAM required Use case
llama-7b.ggmlv3.q2_K.bin q2_K 2 2.80 GB 5.30 GB New k-quant method. Uses GGML_TYPE_Q4_K for the attention.vw and feed_forward.w2 tensors, GGML_TYPE_Q2_K for the other tensors.
llama-7b.ggmlv3.q3_K_L.bin q3_K_L 3 3.55 GB 6.05 GB New k-quant method. Uses GGML_TYPE_Q5_K for the attention.wv, attention.wo, and feed_forward.w2 tensors, else GGML_TYPE_Q3_K
llama-7b.ggmlv3.q3_K_M.bin q3_K_M 3 3.23 GB 5.73 GB New k-quant method. Uses GGML_TYPE_Q4_K for the attention.wv, attention.wo, and feed_forward.w2 tensors, else GGML_TYPE_Q3_K
llama-7b.ggmlv3.q3_K_S.bin q3_K_S 3 2.90 GB 5.40 GB New k-quant method. Uses GGML_TYPE_Q3_K for all tensors
llama-7b.ggmlv3.q4_0.bin q4_0 4 3.79 GB 6.29 GB Original quant method, 4-bit.
llama-7b.ggmlv3.q4_1.bin q4_1 4 4.21 GB 6.71 GB Original quant method, 4-bit. Higher accuracy than q4_0 but not as high as q5_0. However has quicker inference than q5 models.
llama-7b.ggmlv3.q4_K_M.bin q4_K_M 4 4.05 GB 6.55 GB New k-quant method. Uses GGML_TYPE_Q6_K for half of the attention.wv and feed_forward.w2 tensors, else GGML_TYPE_Q4_K
llama-7b.ggmlv3.q4_K_S.bin q4_K_S 4 3.79 GB 6.29 GB New k-quant method. Uses GGML_TYPE_Q4_K for all tensors
llama-7b.ggmlv3.q5_0.bin q5_0 5 4.63 GB 7.13 GB Original quant method, 5-bit. Higher accuracy, higher resource usage and slower inference.
llama-7b.ggmlv3.q5_1.bin q5_1 5 5.06 GB 7.56 GB Original quant method, 5-bit. Even higher accuracy, resource usage and slower inference.
llama-7b.ggmlv3.q5_K_M.bin q5_K_M 5 4.77 GB 7.27 GB New k-quant method. Uses GGML_TYPE_Q6_K for half of the attention.wv and feed_forward.w2 tensors, else GGML_TYPE_Q5_K
llama-7b.ggmlv3.q5_K_S.bin q5_K_S 5 4.63 GB 7.13 GB New k-quant method. Uses GGML_TYPE_Q5_K for all tensors
llama-7b.ggmlv3.q6_K.bin q6_K 6 5.53 GB 8.03 GB New k-quant method. Uses GGML_TYPE_Q8_K for all tensors - 6-bit quantization
llama-7b.ggmlv3.q8_0.bin q8_0 8 7.16 GB 9.66 GB Original quant method, 8-bit. Almost indistinguishable from float16. High resource use and slow. Not recommended for most users.

注意:以上的RAM数字假设没有GPU卸载。如果图层被卸载到GPU,这将减少RAM使用量并使用VRAM。

如何在llama.cpp中运行

我使用以下命令行;根据您的偏好和需求进行调整:

./main -t 10 -ngl 32 -m llama-7b.ggmlv3.q4_0.bin --color -c 2048 --temp 0.7 --repeat_penalty 1.1 -n -1 -p "### Instruction: Write a story about llamas\n### Response:"

将 -t 10 更改为您拥有的物理CPU核心数。例如,如果您的系统有8个核心/16个线程,使用 -t 8 。

将 -ngl 32 更改为要卸载到GPU的图层数量。如果没有GPU加速,请删除该参数。

如果您想要进行对话式交流,请将 -p <PROMPT> 参数替换为 -i -ins

如何在text-generation-webui中运行

更多说明请参阅: text-generation-webui/docs/llama.cpp-models.md

Discord

如需进一步支持,并就这些模型和人工智能进行讨论,请加入我们:

TheBloke AI's Discord server

感谢以及如何贡献

感谢 chirper.ai 团队!

有很多人问我是否可以做出贡献。我喜欢提供模型和帮助人们,非常感谢您的贡献,这将使我能够更多地投入时间进行模型的提供,并开始进行新的AI项目,如微调/训练。

如果您有能力并愿意进行贡献,我将非常感激,并帮助我继续提供更多模型,并开始新的AI项目。

捐赠者将优先获得有关任何AI/LLM/模型问题和请求的支持,访问私人Discord房间以及其他福利。

特别感谢:CarbonQuill的Luke,Aemon Algiz。

Patreon特别提到:Space Cruiser,Nikolai Manek,Sam,Chris McCloskey,Rishabh Srivastava,Kalila,Spiking Neurons AB,Khalefa Al-Ahmad,WelcomeToTheClub,Chadd,Lone Striker,Viktor Bowallius,Edmond Seymore,Ai Maven,Chris Smitley,Dave,Alexandros Triantafyllidis,Luke @flexchar,Elle,ya boyyy,Talal Aujan,Alex,Jonathan Leane,Deep Realms,Randy H,subjectnull,Preetika Verma,Joseph William Delisle,Michael Levine,chris gileta,K,Oscar Rangel,LangChain4j,Trenton Dambrowitz,Eugene Pentland,Johann-Peter Hartmann,Femi Adebogun,Illia Dulskyi,senxiiz,Daniel P. Andersen,Sean Connelly,Artur Olbinski,RoA,Mano Prime,Derek Yates,Raven Klaugh,David Flickinger,Willem Michiel,Pieter,Willian Hasse,vamX,Luke Pendergrass,webtim,Ghost,Rainer Wilmers,Nathan LeClaire,Will Dee,Cory Kujawski,John Detwiler,Fred von Graf,biorpg,Iucharbius,Imad Khwaja,Pierre Kircher,terasurfer,Asp the Wyvern,John Villwock,theTransient,zynix,Gabriel Tamborski,Fen Risland,Gabriel Puliatti,Matthew Berman,Pyrater,SuperWojo,Stephen Murray,Karl Bernard,Ajan Kanaga,Greatston Gnanesh,Junyu Yang。

感谢所有慷慨的资助者和捐赠者!

原始模型卡片:Meta's LLaMA 7b

这包含LLaMA-7b模型的权重。此模型采用非商业许可证(请参阅LICENSE文件)。只有在通过填写 this form 获取了模型访问权限,但要么丢失了权重的副本,要么将其转换为Transformers格式时遇到了问题时,才应使用此代码库。