探索谷歌的ChatGPT在解决数学问题上的能力

2023年08月29日 由 alex 发表 302 0

OpenAI的聊天机器人ChatGPT在众多任务上表现优秀,如剧本写作、解释复杂话题、调试、代码解释等,但在数学方面的表现较差。


2


最近,斯坦福大学和加州大学伯克利分校发布了一份研究论文,指出大型语言模型(LLMs)可以在数字较小的情况下执行简单的数学运算,但在处理大数字时则表现困难,这表明LLMs并未学习执行这些算术操作所需的基本规则。研究论文进一步提到,即使通过对MATHS数据集进行GPT-4改进,错误主要是由于算术和计算错误导致的。


竞争对手谷歌已经认识到LLMs的问题,并开始教授像ChatGPT这样的模型更好地进行算法推理。谷歌研究人员的工作题为“教授语言模型进行算法推理”,采用了上下文学习的方法,并引入了一种更好的推理算法。


上下文学习是指研究人员在教授新技能时,通过逐步引导的过程来指导模型,而不是一次性向其提供所有指令。该方法指的是模型在上下文中看到一些示例后能够执行任务的能力。


他们还提出了一种提示技术,用于使通用语言模型对比提示中更困难的数学问题具有强大的泛化能力。该技术建立在其他基于理性增强的方法(如草稿纸和思维链)之上。最后,他们证明了模型可以在正确的提示下“可靠地执行超出分发示例的算法”。


低于平均水平的学生


ChatGPT在进行某些基本数学运算时变得更差了,在其他方面变得更好了。同一项研究指出,与三月份早期的表现相比,这一备受瞩目的聊天机器人的表现越来越差。


研究人员称,这种恶化是由于一个被称为漂移的人工智能现象,即试图改善复杂模型的一部分,会使模型的其他部分变差。


为了追踪性能,斯坦福大学教授詹姆斯·祖和他的同事马特亚·扎阿里亚和林娇·陈向ChatGPT输入了1,000个不同的数字。在三月份,付费GPT-4版本令人印象深刻地确定了84%的数字是质数还是非质数。到了六月份,成功率下降到51%。


除了答错问题外,ChatGPT还因其试图向研究人员展示其推理过程而受到了批评。作为研究的一部分,研究人员还要求聊天机器人阐述其“思路链”,即聊天机器人解释其推理过程的术语。在三月份,它可以这样做,但到了六月份,它停止展示其逐步推理的方式。


最近的谷歌研究试图通过其上下文学习方法解决这个问题。这些发现表明,探索更长的语境,并促使更具信息性的解释可能会提供有价值的研究成果。


沃尔夫勒姆校长


沃尔夫勒姆研究公司是将技术与数学教育相结合的先驱,他们与ChatGPT的母公司OpenAI合作,为AI模型带来更强大的数学能力。该公司的联合创始人康拉德·沃尔夫勒姆在接受AIM的采访时透露:“我们对我们的LLM模块取得了一些有趣的结果。我尝试运行了一个英国高中数学考试题,这是大学之前学生要参加的一门考试,只用ChatGPT就得到了43%的正确率,这已经相当令人印象深刻了。但是加上沃尔夫勒姆模块后,正确率达到了96%。”


他打趣地说:“这对人类来说就是结束游戏了。”


值得注意的是,当相同的数学问题被分别提问给ChatGPT版本3.5、4和沃尔夫勒姆插件时,只有沃尔夫勒姆插件在第一次尝试中得到了正确答案。


沃尔夫勒姆+ChatGPT插件不仅可以逐步解决数学问题,还可以在特别提示下以可视化方式呈现解答。根据提示,它还可以进一步以图表、曲线和直方图的形式呈现数据。


该插件可以将自然语言查询转化为漂亮的数学方程式。之所以能够做到这一点,是因为它结合了ChatGPT的模仿人类对话技术和沃尔夫勒姆在符号编程语言上的强大基础,该基础着重于用计算形式表达思想。


一方面,沃尔夫勒姆的插件取得了重大进展,另一方面,研究人员发现模型的性能越来越差。在当前的技术环境中,谷歌的最新上下文学习方法可以帮助AI聊天机器人成为一个优秀的学生。


文章来源:https://analyticsindiamag.com/google-teaches-chatgpt-how-to-solve-math-problems/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消