如果告诉你,你可以在保持准确性的同时,将LLM API的支出节省60%或更多,你会怎么想?令人惊讶的是,现在你可以做到了。
大型语言模型(LLM)现在已经成为我们日常生活的一部分。公司利用这项技术来自动化流程、改善客户体验、构建更好的产品、节省资金等。
然而,托管自己的LLM是一项非常具有挑战性的任务。尽管它们提供了广泛的能力,但运行起来往往成本高昂。它们通常需要复杂的基础设施和大量的数据。成本和复杂性正是你使用提示工程的原因。你甚至可能使用检索增强生成(RAG)来提高上下文并减少幻觉。通过这两种技术,你将运行LLM的任务外包给了OpenAI、Cohere或Google等公司。然而,将LLM的应用扩展到新的用例,尤其是使用最新的强大模型时,可能会引发新的、之前未考虑到的成本问题。较弱的模型可能更便宜,但你能信任它们来处理复杂的问题吗?现在,新的研究表明,我们如何可以在节省资金的同时,获得与LLM一样好,有时甚至更好的结果。
了解LLM Cascades
在寻找降低LLM成本的过程中,研究人员转向了LLM Cascades的概念。在ChatGPT推出之前,一个来自谷歌和多伦多大学的团队将这个概念定义为使用概率计算来通过多个LLM获得最佳结果的程序。
最近,FrugalGPT论文将Cascades定义为将用户查询发送到一个LLM列表,从较弱的LLM到较强的LLM,直到答案足够好为止。FrugalGPT Cascades使用专用模型来确定答案是否达到了质量阈值。
乔治梅森大学、微软和弗吉尼亚理工学院最近发表了一篇题为《具有思想表示混合的大型语言模型级联,用于成本效益推理》的论文,提出了一种替代方案:一种无需对另一个模型进行微调即可确定答案是否足够好的功能。
思想混合LLM Cascades
与使用多个LLM不同,“思想混合”(MoT)推理仅使用两个模型——GPT 3.5 Turbo和GPT 4。前者被视为“较弱”的LLM,而后者则是“强大”的LLM。作者利用LLM的“答案一致性”来标记LLM的响应是否足够好。当LLM确信答案是正确的时,它们会对类似的提示产生一致的答案。因此,当较弱的LLM的答案一致时,就没有必要调用更强大的LLM。相反,当这些LLM缺乏信心时,它们会产生不一致的答案。这时,你就需要更强大的LLM来回答提示。(注意:你也可以选择使用你自己选择的较弱/较强的LLM对。)
提示本身使用少样本上下文提示来提高LLM的答案质量。这些提示通过提供类似问题和答案的示例来指导LLM的响应。
为了提高模型推理能力和简化一致性测量,研究人员引入了一种新的推理任务提示技术,通过“混合”两种提示技术来实现:
这篇论文还介绍了两种确定答案一致性的方法:
由于投票法需要多个提示,因此在存在预算来指导阈值数量时,它可能更适用。
总结:思想混合帮你省钱
让我们来看看MoT技术节省了多少资金及其对答案准确性的影响。
研究人员使用以下总和来计算提示成本:
结果令人震惊:
在企业内部托管和管理大型语言模型(LLM)面临着重大挑战。它们带来了复杂性、高昂的成本,以及对大量基础设施和数据资源的需求。因此,LLM对那些寻求利用其广泛功能的组织构成了实质性的障碍。这可能会促使你转向托管LLM。然而,随着扩展到新的用例,这种方法可能会给企业带来意想不到的成本增加和预算挑战。这在集成最新的强大模型时尤其明显。为了避免这种命运,你面临着一个新的困境:你能信任较弱、更实惠的模型吗?你能克服对它们处理复杂问题准确性的担忧吗?
结合了思想混合(MoT)的LLM级联提供了两大显著进步:
这一突破为组织提供了一种实用且高效的方法,以在LLM的强大功能与有效管理成本的必要性之间找到微妙的平衡。