Chat & support: my new Discord server
Want to contribute? TheBloke's Patreon page
这些文件是用于 Elinas' Chronos 33B 的GPTQ模型文件。
提供了多个GPTQ参数排列,有关提供的选项、参数和用于创建它们的软件的详细信息,请参阅下面的提供的文件。
这些模型是使用 Latitude.sh 提供的硬件进行量子化的。
Below is an instruction that describes a task. Write a response that appropriately completes the request. ### Instruction: {prompt} ### Response:
提供了多个量化参数,可供您选择适合您的硬件和需求的最佳参数。
每个单独的量化都在不同的分支中。请参阅下面的说明,了解如何从不同的分支获取。
Branch | Bits | Group Size | Act Order (desc_act) | File Size | ExLlama Compatible? | Made With | Description |
---|---|---|---|---|---|---|---|
main | 4 | None | True | 16.94 GB | True | GPTQ-for-LLaMa | Most compatible option. Good inference speed in AutoGPTQ and GPTQ-for-LLaMa. Lower inference quality than other options. |
gptq-4bit-32g-actorder_True | 4 | 32 | True | 19.44 GB | True | AutoGPTQ | 4-bit, with Act Order and group size. 32g gives highest possible inference quality, with maximum VRAM usage. Poor AutoGPTQ CUDA speed. |
gptq-4bit-64g-actorder_True | 4 | 64 | True | 18.18 GB | True | AutoGPTQ | 4-bit, with Act Order and group size. 64g uses less VRAM than 32g, but with slightly lower accuracy. Poor AutoGPTQ CUDA speed. |
gptq-4bit-128g-actorder_True | 4 | 128 | True | 17.55 GB | True | AutoGPTQ | 4-bit, with Act Order and group size. 128g uses even less VRAM, but with slightly lower accuracy. Poor AutoGPTQ CUDA speed. |
gptq-8bit--1g-actorder_True | 8 | None | True | 32.99 GB | False | AutoGPTQ | 8-bit, with Act Order. No group size, to lower VRAM requirements and to improve AutoGPTQ speed. |
gptq-8bit-128g-actorder_False | 8 | 128 | False | 33.73 GB | False | AutoGPTQ | 8-bit, with group size 128g for higher inference quality and without Act Order to improve AutoGPTQ speed. |
gptq-3bit--1g-actorder_True | 3 | None | True | 12.92 GB | False | AutoGPTQ | 3-bit, with Act Order and no group size. Lowest possible VRAM requirements. May be lower quality than 3-bit 128g. |
gptq-3bit-128g-actorder_False | 3 | 128 | False | 13.51 GB | False | AutoGPTQ | 3-bit, with group size 128g but no act-order. Slightly higher VRAM requirements than 3-bit None. |
git clone --branch gptq-4bit-32g-actorder_True https://huggingface.co/TheBloke/chronos-33b-GPTQ`
请确保您正在使用最新版本的 text-generation-webui 。
强烈建议使用text-generation-webui的一键安装程序,除非您知道如何进行手动安装。
首先确保已安装 AutoGPTQ :
GITHUB_ACTIONS=true pip install auto-gptq
然后尝试以下示例代码:
from transformers import AutoTokenizer, pipeline, logging from auto_gptq import AutoGPTQForCausalLM, BaseQuantizeConfig model_name_or_path = "TheBloke/chronos-33b-GPTQ" model_basename = "chronos-33b-GPTQ-4bit--1g.act.order" use_triton = False tokenizer = AutoTokenizer.from_pretrained(model_name_or_path, use_fast=True) model = AutoGPTQForCausalLM.from_quantized(model_name_or_path, model_basename=model_basename use_safetensors=True, trust_remote_code=False, device="cuda:0", use_triton=use_triton, quantize_config=None) """ To download from a specific branch, use the revision parameter, as in this example: model = AutoGPTQForCausalLM.from_quantized(model_name_or_path, revision="gptq-4bit-32g-actorder_True", model_basename=model_basename, use_safetensors=True, trust_remote_code=False, device="cuda:0", quantize_config=None) """ prompt = "Tell me about AI" prompt_template=f'''Below is an instruction that describes a task. Write a response that appropriately completes the request. ### Instruction: {prompt} ### Response: ''' print("\n\n*** Generate:") input_ids = tokenizer(prompt_template, return_tensors='pt').input_ids.cuda() output = model.generate(inputs=input_ids, temperature=0.7, max_new_tokens=512) print(tokenizer.decode(output[0])) # Inference can also be done using transformers' pipeline # Prevent printing spurious transformers error when using pipeline with AutoGPTQ logging.set_verbosity(logging.CRITICAL) print("*** Pipeline:") pipe = pipeline( "text-generation", model=model, tokenizer=tokenizer, max_new_tokens=512, temperature=0.7, top_p=0.95, repetition_penalty=1.15 ) print(pipe(prompt_template)[0]['generated_text'])
提供的文件可与AutoGPTQ(CUDA和Triton模式)、GPTQ-for-LLaMa(仅测试了CUDA)和Occ4m的GPTQ-for-LLaMa分支一起使用。
ExLlama适用于4位的Llama模型。有关每个文件的兼容性,请参阅上面提供的文件表。
如需进一步支持和讨论有关这些模型和人工智能的话题,请加入我们的 TheBloke AI's Discord server
感谢 chirper.ai 团队!
我收到很多人的询问,询问他们是否可以做出贡献。我喜欢提供模型并帮助人们,非常愿意能够花更多的时间来做这件事,以及扩展到新的项目,比如微调/训练。
如果您能够并且愿意进行贡献,我将非常感激,并且将有助于我继续提供更多的模型,并开始进行新的人工智能项目。
捐赠者将享有在任何AI/LLM/模型问题和请求上获得优先支持的权利,可以访问私人Discord房间,以及其他福利。
特别感谢:CarbonQuill的Luke,Aemon Algiz。
Patreon特别提到:Space Cruiser,Nikolai Manek,Sam,Chris McCloskey,Rishabh Srivastava,Kalila,Spiking Neurons AB,Khalefa Al-Ahmad,WelcomeToTheClub,Chadd,Lone Striker,Viktor Bowallius,Edmond Seymore,Ai Maven,Chris Smitley,Dave,Alexandros Triantafyllidis,Luke@flexchar,Elle,ya boyyy,塔拉诺兹 温, 著译 Asp the Wyvern,John Villwock, 著译 theTransient,zynix,Gabriel Tamborski,Fen Risland,Gabriel Puliatti,Matthew Berman,Pyrater,SuperWojo,Stephen Murray,Karl Bernard,阿詹·卡纳加 Ajan Kanaga,Greatston Gnanesh,Junyu Yang。
感谢所有慷慨的赞助人和捐赠者!
这是 chronos-33b 的fp16 PyTorch / HF版本。如果您需要其他版本,请参考下面的GGML和GPTQ版本链接。
该模型主要用于聊天,角色扮演和写故事,但也可以进行简单的推理和编码等其他任务。
Chronos生成非常长的输出,文本连贯,这主要是由于其训练输入是人类输入导致的。
此模型使用Alpaca格式,因此为了获得最佳模型性能,请使用:
### Instruction: Your instruction or question here. ### Response:
GGML Version provided by @TheBloke
4bit GPTQ Version provided by @TheBloke
-license:other
开发该模型的机构是Meta AI的FAIR团队。
模型日期:LLaMA的训练日期为2022年12月至2023年2月。
模型版本:这是模型的第1个版本。
模型类型:LLaMA是一种自回归语言模型,基于Transformer架构。该模型有不同的规模:7B、13B、33B和65B个参数。
有关更多信息的论文或资源:有关更多信息,请参阅 https://research.facebook.com/publications/llama-open-and-efficient-foundation-language-models/ 处的论文“LLaMA,开放且高效的基础语言模型”。
引用详细信息: https://research.facebook.com/publications/llama-open-and-efficient-foundation-language-models/
许可证:非商业定制许可证
发送问题或对模型的评论的位置:有关LLaMA的问题和评论可以通过项目的 GitHub repository 发送,也可通过开启问题发送。
主要预期用途:LLaMA的主要用途是用于大型语言模型的研究,包括:探索潜在应用,如问答、自然语言理解或阅读理解;了解当前语言模型的功能和限制,并开发改进这些模型的技术;评估和缓解偏见、风险、有毒和有害内容生成、幻觉等方面的问题。
主要预期用户:该模型的主要预期用户是自然语言处理、机器学习和人工智能领域的研究人员。
不在范围内的用例:LLaMA是基础模型,因此在没有进一步评估和降低风险的情况下,不应在下游应用中使用。特别是,我们的模型没有通过人类反馈进行训练,因此可能会生成有毒或冒犯性内容、错误信息或一般无用的答案。
相关因素:模型性能可能会因使用的语言而异最相关的因素之一。尽管我们在训练数据中包含了20种语言,但我们的数据集大部分是英文文本,因此我们预计模型在英文方面的表现会更好。相关的是,以往的研究已经表明,对于不同方言,性能可能会有所不同,我们预计我们的模型也会如此。
评估因素:由于我们的模型是基于Web数据训练的,因此我们希望它能反映出来自该来源的偏见。因此,我们在真实有毒提示上使用Perspective API对模型生成的毒性进行评估。
模型性能评估指标:我们使用以下指标来评估模型:
决策阈值:不适用。
不确定性和变异性的方法:由于训练LLM的计算要求较高,我们只训练了每个规模的一个模型,因此无法评估预训练的变异性。
该模型在以下基准测试中进行了评估:BoolQ、PIQA、SIQA、HellaSwag、WinoGrande、ARC、OpenBookQA、NaturalQuestions、TriviaQA、RACE、MMLU、BIG-bench hard、GSM8k、RealToxicityPrompts、WinoGender、CrowS-Pairs。
该模型使用以下数据源进行训练:CCNet [67%]、C4 [15%]、GitHub [4.5%]、Wikipedia [4.5%]、Books [4.5%]、ArXiv [2.5%]、Stack Exchange [2%]。Wikipedia和Books领域的数据包括以下语言的数据:bg、ca、cs、da、de、en、es、fr、hr、hu、it、nl、pl、pt、ro、ru、sl、sr、sv、uk。有关训练集和相应预处理的更多详细信息,请参阅论文。
模型架构的超参数
LLaMA | Model hyper parameters | |||||
---|---|---|---|---|---|---|
Number of parameters | dimension | n heads | n layers | Learn rate | Batch size | n tokens |
7B | 4096 | 32 | 32 | 3.0E-04 | 4M | 1T |
13B | 5120 | 40 | 40 | 3.0E-04 | 4M | 1T |
33B | 6656 | 52 | 60 | 1.5.E-04 | 4M | 1.4T |
65B | 8192 | 64 | 80 | 1.5.E-04 | 4M | 1.4T |
表1-LLama模型超参数摘要
我们在下表中提供了我们在八个常用常识推理基准测试中的结果。
LLaMA | Reasoning tasks | ||||||||
---|---|---|---|---|---|---|---|---|---|
Number of parameters | BoolQ | PIQA | SIQA | HellaSwag | WinoGrande | ARC-e | ARC-c | OBQA | COPA |
7B | 76.5 | 79.8 | 48.9 | 76.1 | 70.1 | 76.7 | 47.6 | 57.2 | 93 |
13B | 78.1 | 80.1 | 50.4 | 79.2 | 73 | 78.1 | 52.7 | 56.4 | 94 |
33B | 83.1 | 82.3 | 50.4 | 82.8 | 76 | 81.4 | 57.8 | 58.6 | 92 |
65B | 85.3 | 82.8 | 52.3 | 84.2 | 77 | 81.5 | 56 | 60.2 | 94 |
我们在下表中提供了我们的模型输出的偏见摘要。请注意,较低的值表示较低的偏见。
No | Category | FAIR LLM |
---|---|---|
1 | Gender | 70.6 |
2 | Religion | 79 |
3 | Race/Color | 57 |
4 | Sexual orientation | 81 |
5 | Age | 70.1 |
6 | Nationality | 64.2 |
7 | Disability | 66.7 |
8 | Physical appearance | 77.8 |
9 | Socioeconomic status | 71.5 |
LLaMA Average | 66.6 |
表3-模型输出的偏见摘要
数据:用于训练模型的数据是从各种来源收集而来的,主要来自Web。因此,其中包含冒犯、有害和有偏见的内容。因此,我们预计模型也会表现出这些来自训练数据的偏见。
人类生命:模型不适用于涉及人类生命的决策,并且不应以此方式使用。
缓解措施:我们根据Web数据的与维基百科文本和参考文献的接近程度对数据进行了过滤。为此,我们使用了Kneser-Ney语言模型和fastText线性分类器。
风险和危害:大型语言模型的风险和危害包括生成有害、冒犯或有偏见的内容。这些模型通常容易生成不正确的信息,有时被称为幻觉。我们不希望我们的模型是个例外。
用例:LLaMA是基础模型,因此,不应在没有进行进一步调查和风险缓解措施的情况下,用于下游应用程序。这些风险和可能存在问题的用例包括:生成不实信息和生成有害、有偏见或冒犯性内容。