模型:

TheBloke/LLaMa-13B-GGML

类库:

Transformers

其他:

llama text-generation-inference

许可:

other

模型介绍文件清单

英文

Chat & support: my new Discord server

Want to contribute? TheBloke's Patreon page

Meta's LLaMA 13b GGML

这些文件是用于 Meta's LLaMA 13b 的GGML格式模型文件。

GGML文件用于使用 llama.cpp 和支持此格式的库和UI进行CPU + GPU推断，例如：

KoboldCpp ，一个功能强大的GGML Web UI，支持GPU加速。非常适合于讲故事。
LoLLMS Web UI ，一个通过c_transformers后端支持GPU加速的很棒的Web UI。
LM Studio ，一个功能齐全的本地GUI。在macOS上支持完全的GPU加速。也支持Windows，但没有GPU加速。
text-generation-webui ，最流行的Web UI。需要通过llama.cpp后端进行额外的步骤启用GPU加速。
ctransformers ，一个具有LangChain支持和与OpenAI兼容的AI服务器的Python库。
llama-cpp-python ，一个具有与OpenAI兼容的API服务器的Python库。

这些文件使用由 Latitude.sh 提供的硬件进行量化。

可用的存储库

提示模板：无

{prompt}

兼容性

原始的llama.cpp量化方法：q4_0、q4_1、q5_0、q5_1、q8_0

这些方法保证与自今年5月末发布以来的任何UI、工具和库兼容。由于新的k-quant方法基本上取代了这些方法，它们可能很快就会被淘汰。

新的k-quant方法：q2_K、q3_K_S、q3_K_M、q3_K_L、q4_K_S、q4_K_M、q5_K_S、q6_K

截至6月6日的llama.cpp的提交2d43387，这些新的量化方法与llama.cpp兼容。

它们现在还与最近发布的text-generation-webui、KoboldCpp、llama-cpp-python、ctransformers、rustformers和其他大多数工具和库兼容。要了解与其他工具和库的兼容性，请查阅它们的文档。

新的k-quant方法的解释

点击查看详细信息

可用的新方法有：

GGML_TYPE_Q2_K - “type-1”超级块中的“type-1”2位量化，每个块有16个权重。块的缩放和最小值用4位进行量化。这实际上每个权重使用2.5625位（bpw）
GGML_TYPE_Q3_K - “type-0”超级块中的“type-0”3位量化，每个块有16个权重。缩放用6位进行量化。这实际上每个权重使用3.4375位（bpw）
GGML_TYPE_Q4_K - “type-1”超级块中的“type-1”4位量化，每个块有32个权重。缩放和最小值用6位进行量化。这实际上每个权重使用4.5位（bpw）
GGML_TYPE_Q5_K - “type-1”超级块中的“type-1”5位量化。与GGML_TYPE_Q4_K具有相同的超级块结构，结果为每个权重使用5.5位（bpw）
GGML_TYPE_Q6_K - “type-0”超级块中的“type-0”6位量化，每个块有16个权重。缩放用8位进行量化。这实际上每个权重使用6.5625位（bpw）
GGML_TYPE_Q8_K - “type-0”超级块中的“type-0”8位量化。仅用于量化中间结果。与现有的Q8_0的区别在于块大小为256。为此量化类型实现了所有2-6位的点乘。

请参阅下面的提供的文件表，了解使用哪种方法以及如何使用。

提供的文件

Name	Quant method	Bits	Size	Max RAM required	Use case
llama-13b.ggmlv3.q2_K.bin	q2_K	2	5.43 GB	7.93 GB	New k-quant method. Uses GGML_TYPE_Q4_K for the attention.vw and feed_forward.w2 tensors, GGML_TYPE_Q2_K for the other tensors.
llama-13b.ggmlv3.q3_K_L.bin	q3_K_L	3	6.87 GB	9.37 GB	New k-quant method. Uses GGML_TYPE_Q5_K for the attention.wv, attention.wo, and feed_forward.w2 tensors, else GGML_TYPE_Q3_K
llama-13b.ggmlv3.q3_K_M.bin	q3_K_M	3	6.25 GB	8.75 GB	New k-quant method. Uses GGML_TYPE_Q4_K for the attention.wv, attention.wo, and feed_forward.w2 tensors, else GGML_TYPE_Q3_K
llama-13b.ggmlv3.q3_K_S.bin	q3_K_S	3	5.59 GB	8.09 GB	New k-quant method. Uses GGML_TYPE_Q3_K for all tensors
llama-13b.ggmlv3.q4_0.bin	q4_0	4	7.32 GB	9.82 GB	Original quant method, 4-bit.
llama-13b.ggmlv3.q4_1.bin	q4_1	4	8.14 GB	10.64 GB	Original quant method, 4-bit. Higher accuracy than q4_0 but not as high as q5_0. However has quicker inference than q5 models.
llama-13b.ggmlv3.q4_K_M.bin	q4_K_M	4	7.82 GB	10.32 GB	New k-quant method. Uses GGML_TYPE_Q6_K for half of the attention.wv and feed_forward.w2 tensors, else GGML_TYPE_Q4_K
llama-13b.ggmlv3.q4_K_S.bin	q4_K_S	4	7.32 GB	9.82 GB	New k-quant method. Uses GGML_TYPE_Q4_K for all tensors
llama-13b.ggmlv3.q5_0.bin	q5_0	5	8.95 GB	11.45 GB	Original quant method, 5-bit. Higher accuracy, higher resource usage and slower inference.
llama-13b.ggmlv3.q5_1.bin	q5_1	5	9.76 GB	12.26 GB	Original quant method, 5-bit. Even higher accuracy, resource usage and slower inference.
llama-13b.ggmlv3.q5_K_M.bin	q5_K_M	5	9.21 GB	11.71 GB	New k-quant method. Uses GGML_TYPE_Q6_K for half of the attention.wv and feed_forward.w2 tensors, else GGML_TYPE_Q5_K
llama-13b.ggmlv3.q5_K_S.bin	q5_K_S	5	8.95 GB	11.45 GB	New k-quant method. Uses GGML_TYPE_Q5_K for all tensors
llama-13b.ggmlv3.q6_K.bin	q6_K	6	10.68 GB	13.18 GB	New k-quant method. Uses GGML_TYPE_Q8_K for all tensors - 6-bit quantization
llama-13b.ggmlv3.q8_0.bin	q8_0	8	13.83 GB	16.33 GB	Original quant method, 8-bit. Almost indistinguishable from float16. High resource use and slow. Not recommended for most users.

注意：上述RAM数值不包括GPU卸载。如果将图层卸载到GPU，这将减少RAM使用量并使用VRAM。

如何在llama.cpp中运行

我使用以下命令行；根据您的喜好和需求进行调整：

./main -t 10 -ngl 32 -m llama-13b.ggmlv3.q4_0.bin --color -c 2048 --temp 0.7 --repeat_penalty 1.1 -n -1 -p "### Instruction: Write a story about llamas\n### Response:"

将 -t 10 更改为您拥有的物理CPU核心数。例如，如果您的系统有8个核心/16个线程，使用 -t 8 。

将 -ngl 32 更改为要卸载到GPU的图层数量。如果没有GPU加速，请将其删除。

如果您想进行聊天式的对话，请用 -i -ins 替换 -p <PROMPT> 参数

如何在text-generation-webui中运行

这里有更详细的说明： text-generation-webui/docs/llama.cpp-models.md 。

Discord

如需进一步支持并讨论这些模型和人工智能，请加入我们的Discord：

TheBloke AI's Discord server

感谢以及如何贡献

感谢 chirper.ai 团队！

我有很多人问我是否可以贡献。我喜欢提供模型和帮助别人，并很乐意能够更多地花时间这样做，以及扩展到新的项目，如微调/训练。

如果您有能力并愿意进行贡献，我将非常感激，并将帮助我继续提供更多的模型，并开始进行新的AI项目。

捐赠者将优先获得对任何AI/LLM/模型问题和请求的支持，访问私人Discord房间以及其他福利。

Patreon: https://patreon.com/TheBlokeAI
Ko-Fi: https://ko-fi.com/TheBlokeAI

特别感谢：CarbonQuill的Luke，Aemon Algiz。

Patreon特别提及：Space Cruiser，Nikolai Manek，Sam，Chris McCloskey，Rishabh Srivastava，Kalila，Spiking Neurons AB，Khalefa Al-Ahmad，WelcomeToTheClub，Chadd，Lone Striker，Viktor Bowallius，Edmond Seymore，Ai Maven，Chris Smitley，Dave，Alexandros Triantafyllidis，Luke @flexchar，Elle，ya boyyy，Talal Aujan，Alex，Jonathan Leane，Deep Realms，Randy H，subjectnull，Preetika Verma，Joseph William Delisle，Michael Levine，chris gileta，K，Oscar Rangel，LangChain4j，Trenton Dambrowitz，Eugene Pentland，Johann-Peter Hartmann，Femi Adebogun，Illia Dulskyi，senxiiz，Daniel P. Andersen，Sean Connelly，Artur Olbinski，RoA，Mano Prime，Derek Yates，Raven Klaugh，David Flickinger，Willem Michiel，Pieter，Willian Hasse，vamX，Luke Pendergrass，webtim，Ghost，Rainer Wilmers，Nathan LeClaire，Will Dee，Cory Kujawski，John Detwiler，Fred von Graf，biorpg，Iucharbius，Imad Khwaja，Pierre Kircher，terasurfer，Asp the Wyvern，John Villwock，theTransient，zynix，Gabriel Tamborski，Fen Risland，Gabriel Puliatti，Matthew Berman，Pyrater，SuperWojo，Stephen Murray，Karl Bernard，Ajan Kanaga，Greatston Gnanesh，Junyu Yang。

感谢所有慷慨的赞助者和捐赠者！

原始模型卡：Meta's LLaMA 13b

这包含LLaMA-13b模型的权重。此模型根据非商业许可使用（请参阅许可证文件）。如果您通过填写 this form 获得访问模型的权限，但是要么丢失了权重副本，要么在将其转换为Transformers格式时遇到了问题，您才应该使用此存储库。

作者:

Tom Jobbins

数据集大小:

108.15 GB