来自微软亚洲研究院、北京大学和西安交通大学的研究人员开发了一种新的技术,通过让大型语言模型(LLMs)从错误中学习,类似于人类的学习方式,来提高它们解决数学问题的能力。
研究人员本周发表了一篇研究论文,揭示了一种开创性的策略,即从错误中学习(LeMa),它训练AI纠正自己的错误,从而提高推理能力。
研究人员从人类的学习过程中汲取灵感,其中一个学生通过从错误中学习来提高未来的表现。
“考虑一个无法解决数学问题的人类学生,他会从自己犯了什么错误以及如何纠正它中学习,”作者解释道。他们然后将这个概念应用到LLMs上,使用GPT-4生成的错误-纠正数据对来对它们进行微调。
LeMa如何提高数学推理能力
研究人员首先让像LLaMA-2这样的模型为数学文字问题生成有缺陷的推理路径。GPT-4然后识别推理中的错误,解释它们并提供纠正的推理路径。研究人员使用纠正的数据来进一步训练原始模型。
这种新方法的结果是显著的。“在五个基础LLMs和两个数学推理任务上,与仅在CoT数据上微调相比,LeMa始终提高了性能,”研究人员解释道。
LeMa在具有挑战性的数据集上取得了令人印象深刻的结果
更重要的是,像WizardMath和MetaMath这样的专门的LLMs也受益于LeMa,在GSM8K上达到了85.4%的pass@1准确率,在MATH上达到了27.1%。这些结果超过了非执行开源模型在这些具有挑战性的任务上达到的最先进的性能。
这一突破不仅仅意味着AI模型的推理能力的提升。它也标志着向能够从错误中学习和改进的AI系统迈出了重要的一步,就像人类一样。
广泛的影响和未来的方向
该团队的研究,包括他们的代码、数据和模型,现在已经在GitHub上公开。这种开源的方式鼓励更广泛的AI社区继续这条探索线,可能导致机器学习的进一步进步。
LeMa的出现代表了AI的一个重大里程碑,表明机器的学习(ML)过程可以更接近人类的学习。这一发展可能会革命性地改变严重依赖AI的领域,如医疗、金融和自动驾驶汽车,其中错误纠正和持续学习是至关重要的。
随着AI领域的快速发展,将人类的学习过程,如从错误中学习,整合到AI系统中,似乎是开发更高效和有效的AI系统的一个必要因素。
这一机器学习的突破突显了人工智能领域前所未有的潜力。随着机器变得更擅长从错误中学习,我们就更接近于一个AI能够在复杂的问题解决任务中超越人类能力的未来。