研究人员开发了一种大型语言模型,在某些任务上表现优于OpenAI的o1-preview,而成本仅为其一小部分。
来自斯坦福大学和华盛顿大学的研究人员首次在一篇论文中详细介绍了他们的模型,该论文于上周五发表。该算法名为s1-32B,可以在GitHub上获取。
去年九月,OpenAI推出了一种名为o1-preview的推理优化LLM。该算法的主要创新是一种称为测试时计算的技术,新开源的s1-32B模型的创建者称之为测试时扩展。该技术通过增加生成提示答案所需的时间和硬件资源来提高LLM的输出质量。
在o1-preview发布后,多个研究小组开始尝试复制测试时扩展。在他们的论文中,s1-32B的创建者写道,他们的LLM是首次公开披露的成功复制“明确测试时扩展行为”的尝试。
“我们的模型s1-32B展示了测试时扩展”研究人员在他们的论文中写道。“此外,s1-32B是最具样本效率的推理模型,性能优于像OpenAI的o1-preview这样的闭源模型。”
该项目的起点是Qwen2.5-32B-Instruct,这是阿里巴巴集团去年发布的一个开源LLM。研究人员通过使用包含1000个提示和AI生成答案的数据集定制Qwen2.5-32B-Instruct来创建s1-32B。这些答案来自Google LLC的Gemini思维实验LLM。
与简单回答用户提示不同,Gemini思维实验展示了其响应背后的思维过程。该模型提供了其思维过程每一步的自然语言总结。这些总结被添加到s1-32B的训练数据集中,与1000个示例提示和相应的AI生成答案一起。
研究人员通过一个多步骤过程创建了数据集。
首先,他们从公共来源收集了涵盖数学、物理和化学等主题的59,029个问题。然后,他们删除了包含错误的问题。研究人员随后再次过滤数据集,仅保留最具挑战性的1000个问题。
在用数据集训练s1-32B后,研究人员应用了一种新的机器学习方法,称为预算强制。它涉及为LLM提供一个提示,指示它要么比平时更长时间地思考一个问题,要么相反,缩短推理过程。根据研究人员的说法,这种方法解决了在LLM中实施测试时扩展的两个主要障碍。
第一个挑战是LLM有时花费太少时间思考任务,因而犯错。预算强制通过在s1-32B没有花费足够时间处理查询时输入“等待”一词来解决这个问题。根据s1-32B的创建者的说法,这个提示使LLM增强了其推理工作流程。
在一次测试中,s1-32B试图向用户提示显示一个错误答案。在研究人员指示它等待后,该模型注意到了错误并生成了正确答案。
研究人员的预算强制方法解决的第二个问题是LLM有时花费太多时间思考提示。这可能会降低其输出质量。例如,LLM可能找到提示的正确答案,但在随后的处理步骤中更改它。预算强制通过要求LLM跳过那些随后的处理步骤来避免这个问题。
研究人员在MATH和AIME24数学基准测试中将s1-32B与o1-preview进行了比较。前者模型的得分比OpenAI的LLM高出27%。在另一项涉及数学问题的测试中,s1-32B成功使用测试时计算将其得分从50%提高到57%。
预算强制不仅使s1-32B在某些任务上超越o-1,还能以更低的成本实现这一点。参与该模型研究的研究人员之一Niklas Muennighoff表示,开发成本约为20美元的硬件。研究人员在他们的论文中详细说明,s1-32B使用16个Nvidia公司的H100图形卡训练了26分钟。