苹果推出GSM-Symbolic：深入评估LLM数学推理能力

2024年10月14日由 daydream 发表 901 0

近期，大型语言模型（LLM）在数学推理能力上的进步引发了广泛关注，特别是GSM8K基准测试的出现，该测试用于评估LLM的小学阶段数学解题能力。尽管LLM在GSM8K上的表现有所提升，但对于其推理能力是否真正进步仍存在质疑。现有评估指标可能仅部分反映了LLM的能力，研究表明，LLM更多依赖于概率性模式匹配，而非真正的逻辑推理，这导致了标记偏见和对输入微小变化的敏感性。此外，GSM8K的静态特性和单一评估指标限制了其在不同条件下全面评估LLM推理能力的有效性。

微信截图_20241014114325

逻辑推理对于智能系统至关重要，但LLM在此方面的表现稳定性仍需进一步验证。尽管有研究表明，LLM能够通过概率性模式匹配完成某些任务，但它们在处理复杂任务时通常需要更正式的逻辑推理。输入标记的变化可能会对结果产生显著影响。虽然变换器在某些情况下表现有效，但如果依赖外部存储（如草稿板）支持，它们需要更高的表达能力来完成复杂任务。研究表明，LLM在处理任务时更依赖于训练期间见过的数据匹配，而非真正的逻辑理解。

为了更准确地评估LLM的推理能力，苹果公司的研究人员开展了一项大规模研究，使用名为GSM-Symbolic的新基准测试。该基准测试通过符号模板生成多样化的数学问题，从而提供了更可靠和可控的评估方法。研究发现，当数值或问题复杂性增加时，LLM的性能显著下降。此外，添加看似相关但实际上无关的信息会导致性能下降高达65%，这表明LLM主要依赖模式匹配，而非正式逻辑推理。

GSM8K数据集包含超过8000个小学阶段数学问题和答案，常用于评估LLM。然而，由于其普及性，出现了数据污染和对问题微小变化敏感等风险。为解决这些问题，研究人员开发了GSM-Symbolic，该基准测试使用符号模板生成多样化的问题实例，从而提供了更稳健的评估方法。通过对20多个开源和闭源模型使用来自100个模板的5000个样本进行测试，揭示了LLM在数学推理能力方面的优势和局限性。

初步实验显示，在GSM-Symbolic（GSM8K数据集的一个变体）上，各模型的性能存在显著差异，且准确性低于在GSM8K上的表现。研究还探讨了名称变化和数值变化对LLM的影响，发现数值变化对性能产生了显著负面影响。问题难度也影响了准确性，更复杂的问题导致性能下降更为显著。这些结果表明，模型可能更依赖于模式匹配，而非真正的逻辑推理，因为额外条款的添加通常会降低其性能。

微信截图_20241014113926

该研究深入分析了LLM的推理能力，并指出了当前GSM8K评估方法的局限性。通过引入GSM-Symbolic基准测试，研究人员评估了LLM在不同问题变体下的数学推理能力。结果显示，当改变数值或添加无关条款时，LLM的性能存在显著变异性。此外，随着问题复杂性的增加，LLM的表现也受到影响，表明它们更多依赖于模式匹配而非真正的逻辑推理。GSM-NoOp测试进一步揭示了LLM在过滤无关信息方面的不足，导致性能大幅下降。总体而言，这项研究强调了进一步发展以增强LLM逻辑推理能力的必要性。

文章来源：https://www.marktechpost.com/2024/10/13/apple-researchers-introduce-gsm-symbolic-a-novel-machine-learning-benchmark-with-multiple-variants-designed-to-provide-deeper-insights-into-the-mathematical-reasoning-abilities-of-llms/

标签：

苹果 GSM-Symbolic LLM

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇企业AI发展探索新架构，Transformer非唯一选择

下一篇特斯拉robotaxi发布会后股价受挫，马斯克净资产缩水

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

优化 LLM 提示的成本、延迟和性能的 4 种技术