模型:

JosephusCheung/GuanacoOnConsumerHardware

英文

尝试使用Colab免费T4演示的多模式版本:

此存储库用于具有4位量化权重的Guanaco模型。该模型受益于GPTQ引入的两种新技术:按照激活大小递减的顺序量化列,并在单个Transformer块内执行顺序量化。这些创新使紧凑的消费级多语言模型能够有效运行。

Guanaco模型旨在提供一个能够处理简单的问答交互、具有全面的语法理解、丰富的词汇和类似于大规模语言模型稳定性的小型多语言对话模型,用作人机界面。

但是,由于消费者硬件的限制,具有ChatGPT3.5/GPT4性能水平的模型无法独立运行。我们的模型在参数数量减少的情况下仍然可以在旧硬件世代上运行,并且在4位量化后所需的内存少于6GB。唯一的限制是速度,速度取决于实际的硬件配置。

我们追求的不是和ChatGPT等大型模型竞争,而是追求一种没有任何固有知识或计算能力的完整语言模型。我们通过集成用于知识获取的API(例如,查询维基百科或利用Wolfram|Alpha进行计算)来实现这一目标,以向用户提供准确的信息,而不是依赖模型的学习和理解能力。主要目标是创建一个稳定的大规模语言模型,用于人机交互。

这种方法的一个例子是处理长文章或PDF文档。使用传统的ChatGPT3.5 API的单线程操作,文本必须被分成片段,并与用户输入进行匹配,这是低效的。我们的小型多语言模型可以逐句分析文本,为每个句子生成多个可读的问题。然后,它可以使用问题-答案树结构和PageRank等算法建立这些问题之间的逻辑连接,从而根据初步的逻辑分析为用户提供答案。

此外,我们的模型可以应用于总结网络搜索结果。这些用例对于大型模型来说由于成本、规模和频率限制而具有挑战性,在本地、小规模、消费级硬件上更具可行性。这个方向代表了我们努力的下一个步骤。