LLM级联技术，省钱又高效的AI新选择

2024年03月07日由 daydream 发表 504 0

如果告诉你，你可以在保持准确性的同时，将LLM API的支出节省60%或更多，你会怎么想？令人惊讶的是，现在你可以做到了。

微信截图_20240307115600

大型语言模型（LLM）现在已经成为我们日常生活的一部分。公司利用这项技术来自动化流程、改善客户体验、构建更好的产品、节省资金等。

然而，托管自己的LLM是一项非常具有挑战性的任务。尽管它们提供了广泛的能力，但运行起来往往成本高昂。它们通常需要复杂的基础设施和大量的数据。成本和复杂性正是你使用提示工程的原因。你甚至可能使用检索增强生成（RAG）来提高上下文并减少幻觉。通过这两种技术，你将运行LLM的任务外包给了OpenAI、Cohere或Google等公司。然而，将LLM的应用扩展到新的用例，尤其是使用最新的强大模型时，可能会引发新的、之前未考虑到的成本问题。较弱的模型可能更便宜，但你能信任它们来处理复杂的问题吗？现在，新的研究表明，我们如何可以在节省资金的同时，获得与LLM一样好，有时甚至更好的结果。

了解LLM Cascades

在寻找降低LLM成本的过程中，研究人员转向了LLM Cascades的概念。在ChatGPT推出之前，一个来自谷歌和多伦多大学的团队将这个概念定义为使用概率计算来通过多个LLM获得最佳结果的程序。

最近，FrugalGPT论文将Cascades定义为将用户查询发送到一个LLM列表，从较弱的LLM到较强的LLM，直到答案足够好为止。FrugalGPT Cascades使用专用模型来确定答案是否达到了质量阈值。

乔治梅森大学、微软和弗吉尼亚理工学院最近发表了一篇题为《具有思想表示混合的大型语言模型级联，用于成本效益推理》的论文，提出了一种替代方案：一种无需对另一个模型进行微调即可确定答案是否足够好的功能。

思想混合LLM Cascades

与使用多个LLM不同，“思想混合”（MoT）推理仅使用两个模型——GPT 3.5 Turbo和GPT 4。前者被视为“较弱”的LLM，而后者则是“强大”的LLM。作者利用LLM的“答案一致性”来标记LLM的响应是否足够好。当LLM确信答案是正确的时，它们会对类似的提示产生一致的答案。因此，当较弱的LLM的答案一致时，就没有必要调用更强大的LLM。相反，当这些LLM缺乏信心时，它们会产生不一致的答案。这时，你就需要更强大的LLM来回答提示。（注意：你也可以选择使用你自己选择的较弱/较强的LLM对。）

提示本身使用少样本上下文提示来提高LLM的答案质量。这些提示通过提供类似问题和答案的示例来指导LLM的响应。

为了提高模型推理能力和简化一致性测量，研究人员引入了一种新的推理任务提示技术，通过“混合”两种提示技术来实现：

思考链（CoT）提示鼓励LLM在得出最终答案之前生成中间步骤或推理。生成这些步骤有助于模型改进复杂任务的结果，并提高答案的准确性。

思考程序（PoT）扩展了思考链提示，并使用模型的输出作为进一步提示的新输入。使用这种技术的提示通常要求模型以代码而不是人类语言的形式回答。

这篇论文还介绍了两种确定答案一致性的方法：

投票法：这种方法从具有相似提示的LLM查询或通过改变响应温度选项来采样多个答案。然后，它测量LLM的答案之间的相似度。与所有其他答案最一致的答案被认为是正确的。团队还定义了一个灵活的“阈值”值，该值使答案一致性和预算约束保持一致。

验证法：这种方法比较LLM在两种不同思想表示（例如，CoT和PoT）下最一致的答案。如果两个提示响应相同，则算法接受较弱的LLM的答案。

由于投票法需要多个提示，因此在存在预算来指导阈值数量时，它可能更适用。

总结：思想混合帮你省钱

让我们来看看MoT技术节省了多少资金及其对答案准确性的影响。

研究人员使用以下总和来计算提示成本：

较弱模型的提示成本（因为我们可能需要多次提示它）
答案评估过程的成本
如果评估过程拒绝答案，我们添加强模型的提示成本

结果令人震惊：

使用MoT变体——将投票和验证与CoT和PoT相结合——可以在仅使用GPT-4的40%的成本下实现相当的性能。
在针对CREPE Q&A数据集进行测试时，MoT以GPT-4的47%的成本超过了其性能。
将PoT和CoT混合使用相比单独使用其中一种技术能改善决策制定。
尽管增加了成本，但在使用投票方法时增加阈值并未对质量产生显著影响。
一致性模型在可靠地识别正确的LLM答案方面证明了自己。它成功地预测了何时需要转而使用强模型以获得最佳结果。

在企业内部托管和管理大型语言模型（LLM）面临着重大挑战。它们带来了复杂性、高昂的成本，以及对大量基础设施和数据资源的需求。因此，LLM对那些寻求利用其广泛功能的组织构成了实质性的障碍。这可能会促使你转向托管LLM。然而，随着扩展到新的用例，这种方法可能会给企业带来意想不到的成本增加和预算挑战。这在集成最新的强大模型时尤其明显。为了避免这种命运，你面临着一个新的困境：你能信任较弱、更实惠的模型吗？你能克服对它们处理复杂问题准确性的担忧吗？

结合了思想混合（MoT）的LLM级联提供了两大显著进步：

相较于仅使用最新模型，可以节省大量成本。
可展示与最新模型相当的结果。

这一突破为组织提供了一种实用且高效的方法，以在LLM的强大功能与有效管理成本的必要性之间找到微妙的平衡。

文章来源：https://towardsdatascience.com/navigating-cost-complexity-mixture-of-thought-llm-cascades-illuminate-a-path-to-efficient-large-23291d1eda41

标签：

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇什么是MLOps？如何构建功能性MLOps框架？

下一篇【指南】自适应形态重建

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来