DeepMind推出带验证器AI模型 高效解决数学难题

2023年12月15日 由 daydream 发表 281 0

DeepMind的人工智能研究部门声称已经利用一款基于大型语言模型(LLM)的聊天机器人破解了一个被认为无解的数学问题。这款聊天机器人配备了一个事实检查器来过滤掉无用的输出。


微信截图_20231215104042


通过使用过滤器,DeepMind的研究人员表示LLM可以生成数百万个响应,但只提交那些可以验证为准确的响应。


这是一个里程碑式的成就,因为以前的DeepMind突破通常依赖于专门为解决手头任务而创建的AI模型,例如预测天气或设计新的蛋白质结构。这些模型是在非常准确和特定的数据集上训练的,这使它们与像OpenAI的GPT-4或谷歌的Gemini这样的LLM截然不同。


这些LLM是在广泛而多样的数据集上训练的,使它们能够执行广泛的任务并讨论几乎任何主题。但这种方法也存在风险,因为LLM容易出现所谓的“幻觉”,即产生虚假输出的术语。


幻觉是LLM面临的一个大问题。Gemini,这款在本月发布且据称是谷歌迄今为止最强大的LLM,已经显示出它是脆弱的,它错误地回答了一些相当简单的问题,比如谁赢得了今年的奥斯卡。


研究人员认为,可以通过在AI模型之上增加一个层来验证其输出的准确性然后再传递给用户来修复幻觉。但是,当LLM被训练来讨论如此广泛的话题时,构建这种安全网是很难的。


在DeepMind,Alhussein Fawzi和他的团队成员创建了一个名为FunSearch的通用LLM,基于谷歌的PaLM2模型。他们添加了一个事实检查层,称为“评估器”。在这种情况下,FunSearch被定位为只通过生成计算机代码来解决数学和计算机科学问题。据DeepMind称,这使得创建事实检查层变得更容易,因为其输出可以迅速得到验证。


尽管FunSearch模型仍然容易出现幻觉和产生不准确或误导性的结果,但评估器可以轻松地过滤掉它们,确保用户只收到可靠的输出。


Fawzi说:“我们认为或许LLM输出的90%是没用的。给定一个候选解决方案,对我来说很容易告诉你这是否实际上是一个正确的解决方案并评估解决方案,但实际上提出一个解决方案确实很困难。因此,数学和计算机科学特别适合。”


据Fawzi所说,FunSearch能够生成新的科学知识和想法,这对LLM来说是一个新的里程碑。


研究人员通过给它一个问题,加上一个非常基本的解决方案源代码作为输入来测试其能力。然后,该模型生成了一个数据库,数据库中的新解决方案被评估器检查其准确性。然后,这些最可靠的解决方案被重新输入到LLM中,连同一个提示要求它改进其想法。据Fawzi所说,通过这种方式,FunSearch产生了数百万个潜在的解决方案,最终汇聚产生最有效的结果。


当任务是数学问题时,FunSearch编写计算机代码以找到解决方案,而不是直接尝试解决它。


Fawzi和他的团队让FunSearch尝试找到解决帽子集问题的方案,该问题涉及确定点的模式,其中没有三点构成一条直线。随着点数的增加,问题变得极其复杂。


然而,FunSearch 能够创建一个由八个维度跨越的 512 个点的解决方案,这超过了任何人类数学家的管理。该实验的结果发表在《自然》杂志上。


尽管大多数人可能永远不会遇到帽子集问题,更不用说尝试解决它,但这是一个重要的成就。即使是最优秀的人类数学家也不认同解决这一挑战的最佳方法。加州大学的教授泰伦斯·陶将帽子集问题描述为他的“最喜欢的未解之谜”,他认为FunSearch是一个非常“有前途的范式”,因为它可能适用于许多其他数学问题。


当FunSearch被指派解决装箱问题时,它证明了这一点,其中的目标是将不同大小的物体以尽可能少的容器高效地放置。Fawzi说FunSearch能够找到比为解决这个特定问题创建的最佳算法还要好的解决方案。其结果可能对运输和物流等行业产生重大影响。


FunSearch 还值得注意的是,与其他 LLM 不同,用户实际上可以看到它是如何生成其输出的,这意味着他们可以从中学习。这使它区别于其他LLM,那些AI更像是一个“黑盒子”。

文章来源:https://siliconangle.com/2023/12/14/googles-deepmind-creates-generative-ai-model-fact-checker-crack-unsolvable-math-problem/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
写评论取消
回复取消