苹果推出GSM-Symbolic:深入评估LLM数学推理能力

2024年10月14日 由 daydream 发表 364 0

近期,大型语言模型(LLM)在数学推理能力上的进步引发了广泛关注,特别是GSM8K基准测试的出现,该测试用于评估LLM的小学阶段数学解题能力。尽管LLM在GSM8K上的表现有所提升,但对于其推理能力是否真正进步仍存在质疑。现有评估指标可能仅部分反映了LLM的能力,研究表明,LLM更多依赖于概率性模式匹配,而非真正的逻辑推理,这导致了标记偏见和对输入微小变化的敏感性。此外,GSM8K的静态特性和单一评估指标限制了其在不同条件下全面评估LLM推理能力的有效性。


微信截图_20241014114325


逻辑推理对于智能系统至关重要,但LLM在此方面的表现稳定性仍需进一步验证。尽管有研究表明,LLM能够通过概率性模式匹配完成某些任务,但它们在处理复杂任务时通常需要更正式的逻辑推理。输入标记的变化可能会对结果产生显著影响。虽然变换器在某些情况下表现有效,但如果依赖外部存储(如草稿板)支持,它们需要更高的表达能力来完成复杂任务。研究表明,LLM在处理任务时更依赖于训练期间见过的数据匹配,而非真正的逻辑理解。


为了更准确地评估LLM的推理能力,苹果公司的研究人员开展了一项大规模研究,使用名为GSM-Symbolic的新基准测试。该基准测试通过符号模板生成多样化的数学问题,从而提供了更可靠和可控的评估方法。研究发现,当数值或问题复杂性增加时,LLM的性能显著下降。此外,添加看似相关但实际上无关的信息会导致性能下降高达65%,这表明LLM主要依赖模式匹配,而非正式逻辑推理。


GSM8K数据集包含超过8000个小学阶段数学问题和答案,常用于评估LLM。然而,由于其普及性,出现了数据污染和对问题微小变化敏感等风险。为解决这些问题,研究人员开发了GSM-Symbolic,该基准测试使用符号模板生成多样化的问题实例,从而提供了更稳健的评估方法。通过对20多个开源和闭源模型使用来自100个模板的5000个样本进行测试,揭示了LLM在数学推理能力方面的优势和局限性。


初步实验显示,在GSM-Symbolic(GSM8K数据集的一个变体)上,各模型的性能存在显著差异,且准确性低于在GSM8K上的表现。研究还探讨了名称变化和数值变化对LLM的影响,发现数值变化对性能产生了显著负面影响。问题难度也影响了准确性,更复杂的问题导致性能下降更为显著。这些结果表明,模型可能更依赖于模式匹配,而非真正的逻辑推理,因为额外条款的添加通常会降低其性能。


微信截图_20241014113926


该研究深入分析了LLM的推理能力,并指出了当前GSM8K评估方法的局限性。通过引入GSM-Symbolic基准测试,研究人员评估了LLM在不同问题变体下的数学推理能力。结果显示,当改变数值或添加无关条款时,LLM的性能存在显著变异性。此外,随着问题复杂性的增加,LLM的表现也受到影响,表明它们更多依赖于模式匹配而非真正的逻辑推理。GSM-NoOp测试进一步揭示了LLM在过滤无关信息方面的不足,导致性能大幅下降。总体而言,这项研究强调了进一步发展以增强LLM逻辑推理能力的必要性。

文章来源:https://www.marktechpost.com/2024/10/13/apple-researchers-introduce-gsm-symbolic-a-novel-machine-learning-benchmark-with-multiple-variants-designed-to-provide-deeper-insights-into-the-mathematical-reasoning-abilities-of-llms/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
写评论取消
回复取消