在下游自然语言处理(NLP)任务方面,大型语言模型(LLMs)已经证明了它们的卓越效果。为了生成连贯和与上下文相关的回答,先驱模型如GPT4和ChatGPT已经在大量的文本数据上进行了训练。它们的文本理解和生成能力使它们非常灵活,可以用于各种NLP应用。人们普遍认为,LLM在执行复杂的算术运算方面有困难,比如乘以超过八位数的数字或进行涉及小数或分数的运算。虽然GPT-4在各种NLP任务上表现出了出色的能力,但它可能不会在数学思维方面表现出同样的水平。
清华大学、TAL AI实验室和Zhipu.AI的研究人员调查了LLMs的数学技能,试图消除这些错误的观念。他们最近的工作提出了MathGLM,一个强大的模型,精心构建,以执行广泛的复杂算术运算。它达到了与业界领先的LLMs如GPT-4相媲美的最佳性能。加法、减法、乘法、除法和乘方都是算术运算的例子,还有使用括号来组合多种类型的算术运算。它们执行“1-atomic operation”程序,即单独执行,而不与其他程序结合。最值得注意的是,MathGLM可以轻松地对任何类型的数字进行算术运算,无论是整数、小数、分数、百分数还是负数。
Ape210K数据集从互联网上收集了数学文字问题,并提供了一个全面的数学难题来源。这个数据集有助于训练MathGLM,因为它有各种问题类型。这个数据集的独特之处在于,它包含了明确计算出来的答案。然而,团队指出,MathGLM简单直接地呈现答案的方式可能导致一个潜在的后果,即它可能无法识别重要的潜在计算原理和模式。
为了克服这个可能的缺陷,并提高MathGLM解决数学文字问题的能力,研究人员使用逐步方法重构了Ape210K数据集。通过将复杂的算术计算过程分解为一系列顺序阶段,MathGLM可以准确地生成数学文字问题的答案。
它广泛的试验和深入的分析证明了MathGLM在数学推理方面优于GPT-4。与在原始数据集上微调相比,MathGLM在答案准确性方面取得了令人印象深刻的42.29%的绝对增益。在从GLM-10B微调后,在一个5000个案例的数学文字问题数据集上,MathGLM的表现非常接近GPT-4。通过将算术文字问题分解为它们组成的步骤,MathGLM可以完全理解复杂的计算过程,学习潜在的计算规则,并产生更可靠的结果。
这些发现极大地挑战了传统观念,即LLMs无法处理复杂的算术任务,从而揭示了它们在数学思维方面蓬勃发展的非凡能力。