DeepMind和UC Berkeley研究提升LLM推理性能

2024年08月27日由 daydream 发表 375 0

在大型语言模型（LLMs）的培训成本高昂且速度缓慢的背景下，研究人员正在讨论是否可以通过增加推理阶段的计算周期来提升LLMs的性能，而无需对它们进行重新训练。

微信截图_20240827114301

在一项新研究中，来自DeepMind和加利福尼亚大学伯克利分校的研究人员探索了通过在推理阶段战略性地分配计算资源来提高LLMs性能的方法。他们在一篇新的研究论文中详细阐述了他们的发现，表明通过优化推理时间的计算使用，LLMs可以在不增加模型大小或广泛预训练的情况下实现实质性的性能提升。

推理时间和预训练计算之间的权衡

提高LLM性能的主要方法是扩大模型规模和预训练计算量。然而，这种方法有其局限性。更大的模型训练成本高，运行需要更多资源，这可能使它们在不同环境中的部署变得不切实际，包括在资源受限的设备上。

另一种选择是在推理期间使用更多的计算来提高LLM对挑战性提示的准确性。这种方法可以使得较小的LLMs得以部署，同时仍能实现与更大、更耗计算的模型相当的性能。

问题在于，如果一个LLM被允许使用一定量的推理时间计算，你如何通过不同的推理方法获得最佳性能，以及它与更大型的预训练模型相比表现如何？

最受欢迎的扩展测试时间计算的方法是N选1采样，模型并行生成N个输出，并选择最准确的响应作为最终答案。然而，还有其他方式可以利用推理时间的计算来改进LLMs。例如，不是并行生成多个响应，而是可以让模型在多个连续步骤中修订和纠正其响应。另一种方法是改变选择最佳产生响应的验证机制。你还可以将并行和顺序采样与多种验证策略和搜索算法结合起来，以获得更丰富的推理时间优化策略景观。

为了确定最优的推理时间策略，研究人员定义了“测试时间计算最优扩展策略”为“对应于给定测试时间策略的超参数选择策略，旨在在测试时针对特定提示实现最大性能收益。”

研究人员写道：“理想情况下，测试时间计算应该修改分布，以便比直接从LLM本身抽样生成更好的输出。”

利用推理时间计算的不同方式

研究人员探索了两种主要策略，利用推理时间计算来提高LLM性能。第一种策略侧重于修改提案分布，即LLM生成响应的过程。这可以通过微调LLM来实现，使其在复杂的基于推理的环境中迭代修正其答案。

第二种策略涉及优化验证器，即用于从生成的响应中选择最佳答案的机制。这可以通过训练一个基于过程的奖励模型来完成，该模型评估答案中单个步骤的正确性。

为了评估他们的方法，研究人员在具有挑战性的MATH基准上使用PaLM-2模型对这两种方法进行了实验。

研究人员写道：“我们发现，特定测试时间计算策略的有效性在很大程度上取决于手头具体问题的性质和所使用的基础LLM。”

对于较易的问题，其中基础LLM已经能够产生合理的响应，允许模型迭代完善其初始答案证明比并行生成多个样本更有效。对于需要探索不同解决方案策略的更困难问题，他们发现并行重采样多个响应或部署基于过程的奖励模型的树搜索更有效。

“这一发现说明了部署自适应‘计算最优’策略来扩展测试时间计算的必要性，根据提示选择特定的利用测试时间计算的方法，以充分利用额外的计算，”研究人员写道。

通过适当分配测试时间计算，研究人员能够显著提高性能，超过了N选1基线，同时仅使用了大约25%的计算量。

平衡测试时间计算与预训练计算

研究人员还调查了测试时间计算在多大程度上可以替代额外的预训练。他们将一个带有额外测试时间计算的较小模型与一个14倍大且经过更多预训练的模型进行了比较。

对于较易和中等难度的问题，带有额外测试时间计算的较小模型的表现与更大的预训练模型相当。

“这一发现表明，与其纯粹专注于扩大预训练规模，在某些设置下，预训练较小的模型使用更少的计算量，然后应用测试时间计算来改善模型输出更为有效，”研究人员写道。

然而，对于最具挑战性的问题，额外的预训练计算证明更有效。这表明，目前扩展测试时间计算的方法可能并非在所有场景下都能完美替代扩展预训练。

研究人员建议了几个未来研究方向，包括探索结合不同修订和搜索技术的更复杂策略，以及开发更高效的方法来估算问题难度。

“总的来说，[我们的研究]表明，即使是采用相当简单方法论的情况下，增加测试时间计算已经比增加预训练更可取，随着测试时间策略的成熟只会获得更多改进，”研究人员写道。“从长远来看，这暗示了一个未来的发展方向，即在预训练期间减少浮点运算次数（FLOPs），而在推理时增加FLOPs的使用。”

文章来源：https://venturebeat.com/ai/deepmind-and-uc-berkeley-shows-how-to-make-the-most-of-llm-inference-time-compute/

标签：

DeepMind LLM

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 xAI的Grok-2聊天机器人跃居排行榜次席

下一篇人工智能公司Aleph Alpha发布符合欧盟标准的AI

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来