多模态推理领域迎来新突破:未经监督微调的2B模型展现高级推理策略

2025年03月05日 由 daydream 发表 4387 0

AI领域的一项新研究在多模态推理方面取得了显著进展。研究团队在未经监督微调的2B模型上,成功应用了DeepSeek-R1-Zero方法,观察到了模型在训练过程中自主开发出高级推理策略的现象。这一成果标志着AI在多模态推理领域迈出了重要一步。


微信截图_20250305134051


研究团队通过强化学习的方法,在Qwen2-VL-2B基础模型上进行了训练,并在SAT数据集上进行了评估。结果显示,该模型在CV-Bench基准测试套件上达到了59.47%的准确率,比基础模型高出约30%,甚至超越了经过指令微调的模型,而后者的训练数据明显更多。这一性能提升表明,强化学习在视觉推理任务中具有巨大的潜力。


在训练过程中,模型展现出了一种令人瞩目的能力:它能够自主构建推理策略,重新审视自己的初始方法,并纠正自身错误。这种能力的出现,证明了模型在训练过程中能够逐渐发展出更高级的问题解决策略。同时,研究还发现,更长的推理过程对以视觉为中心的任务有着极大的益处。


为了探究强化学习对模型推理能力的影响,研究团队进行了多种微调设置的实验。他们发现,尽管对指令模型应用强化学习确实提高了性能,但这种方法并未真正增强模型的推理能力,模型响应仍然很简单且缺乏实质内容。然而,在冻结视觉编码器的条件下,训练多模态大语言模型反而提高了性能,这一结果与最初的假设相反。


此外,研究团队还强调了DeepSeek-R1-Zero方法中的关键特征,包括模型在训练过程中自主开发出高级推理策略以及响应长度的持续增长。这些特征表明,模型在训练过程中能够自然学会利用更长的思考时间来解决推理任务,并开发出更高级的推理策略。这些发现为未来的多模态推理研究提供了新的思路和方法。


目前,研究团队已经将训练代码和相关研究发现开源,希望加速AI社区对多模态推理领域的研究。这一成果不仅为AI领域带来了新的突破,也为未来的智能系统发展提供了更多的可能性。

文章来源:https://mp.weixin.qq.com/s/7jGwTQKFHZ_4_UeiY_9ULQ
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消