无需庞大数据集,少量示例亦能训练LLM

2025年02月19日 由 daydream 发表 4161 0

近日,上海交通大学的研究人员发布了一项新研究,揭示大型语言模型(LLM)在无需依赖庞大数据集的情况下,也能学习复杂的推理任务。研究显示,通过精心挑选的一小部分示例,即可对LLM进行训练,完成以往被认为需要数万训练样本的任务。


微信截图_20250219102301


这项成果的高效性源于现代LLM在预训练阶段获得的固有知识。随着新型训练方法变得更加数据和计算高效,企业或许能够在无需大型AI实验室资源的情况下,创建定制化模型。


研究提出了“少即是多”(LIMO)的概念,挑战了训练LLM进行推理任务需要大量数据的传统观念。此前的研究已表明,LLM能够通过少量示例与人类偏好保持一致,该研究在此基础上进一步深入。


实验中,研究人员创建了一个针对复杂数学推理任务的LIMO数据集,仅包含数百个训练示例。经过该数据集微调后的LLM,能够生成复杂的“思维链”(CoT)推理过程,以极高的成功率完成任务。


例如,一个基于LIMO挑选的817个训练示例微调后的Qwen2.5-32B-Instruct模型,在极具挑战性的AIME基准测试中达到了57.1%的准确率,在MATH基准测试中达到了94.8%,表现优于训练样本量是其百倍的其他模型。该模型在基准测试中的得分也高于经过更大数据和计算资源训练的推理模型,如QwQ-32B-Preview(Qwen模型的一个推理训练版本)和OpenAI o1-preview。


此外,LIMO训练的模型能够泛化到与训练数据截然不同的示例。在OlympiadBench科学基准测试中,LIMO模型的表现优于QwQ-32B-Preview;在具有挑战性的GPQA基准测试中,其准确率为66.7%,接近OpenAI-o1-preview的领先得分73.3%。


对于企业AI而言,LLM的定制化是一个颇具吸引力的应用场景。然而,推理任务通常需要训练和微调LLM。普遍认为,这类任务需要大量包含详细推理链和解决方案的训练示例。创建此类数据集速度缓慢且对许多应用和企业而言不切实际。


最近的研究表明,纯强化学习方法能够使模型通过生成多种解决方案并选择最佳方案来自我训练进行推理任务。虽然这种方法减少了人工努力,但仍需要许多企业难以承担的高昂计算资源。


相比之下,精心制作数百个示例是许多企业能够完成的任务,从而使专业推理模型在更广泛的组织中得以实现。


研究指出,LLM能够用更少示例学习复杂推理任务的两个关键原因:首先,最先进的基础模型在预训练阶段已经学习了大量数学内容和代码,因此这些LLM的参数中已经包含了丰富的推理知识,可以通过精心设计的示例来激活。其次,新的后训练技术表明,允许模型生成扩展的推理链可以显著提高其推理能力。简而言之,给予模型更多“思考”时间,可以让它们更有效地拆解和应用预训练知识。


研究人员认为,成功的推理源于这两个因素的协同作用:丰富的预训练知识和推理时的充足计算资源。这些发现共同表明了一种惊人的可能性:如果模型具备丰富的推理知识,并给予足够的计算空间,那么激活其推理能力可能只需要少量高质量的训练样本,这些样本鼓励延长推理过程,而不是依赖庞大的微调数据集。


研究人员发现,创建有用的LIMO数据集关键在于选择正确的问题和解决方案。数据策划者应优先考虑需要复杂推理链、多样化思维过程和知识整合的挑战性问题,这些问题还应偏离模型的训练分布,以鼓励新的推理方法并促使其泛化。


相应地,解决方案应清晰且组织良好,推理步骤应与问题的复杂性相适应。高质量的解决方案还应通过精心结构的解释逐步构建理解,提供战略性的教育支持。


研究人员已发布了实验中用于训练LIMO模型的代码和数据,并计划未来将该概念扩展到其他领域和应用。

文章来源:https://venturebeat.com/ai/researchers-find-you-dont-need-a-ton-of-data-to-train-llms-for-reasoning-tasks/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消