GPT-3 ace 类比推理测试
2023年08月01日 由 Susan 发表
638195
0
大型语言模型是一类依赖于大量计算节点和同样庞大的节点之间连接的人工智能算法。它们可以被训练用于执行各种功能,比如蛋白质折叠等,但它们最为人所知的是它们在处理人类语言方面的能力。
LLM被训练成简单地预测文本中出现的下一个单词,可以产生听起来像人的对话和文章,尽管存在一些令人担忧的准确性问题。这些系统已经展示了各种行为,这些行为似乎远远超出了它们被训练来处理的简单语言能力。
我们似乎可以将类比添加到LLM无意中掌握的项目列表中。加州大学洛杉矶分校的一个团队使用了一些对于任何在标准化测试(比如SAT)上花费时间的美国人来说应该很熟悉的问题,对GPT-3进行了测试。在除了一个变种之外的所有这些问题中,GPT-3的表现都超过了那些可能几年前刚刚掌握这些测试的研究人员。研究人员认为,这表明LLM能够掌握类比推理。
不同类型的推理
UCLA的团队(Taylor Webb、Keith Holyoak和Hongjing Lu)依靠大量研究来测试人类通过类比进行推理的能力。其中经典形式是完成一个比较,比如“冷与冰的关系如同热与____的关系”——你需要从一组选项中选择最佳的完成词。
相关测试涉及找出系列字母变换的规则。例如,如果将系列a b c d转换为a b c e,那么规则是将系列的最后一个字母替换为其字母表中的下一个字母。通过要求参与者使用规则来转换不同的字母集合,可以测试他们对规则的理解。类似的数字测试可以涉及复杂的规则,比如“仅按顺序排列的偶数,但可以是递增或递减”。
在所有这些测试中,GPT-3始终表现出优于研究的结果,尽管具体测试的优势程度有所变化。研究人员还发现该软件可以基于一系列数字发展出规则,并将其应用于不同的领域,例如描述温度的词语,如“温暖”和“寒冷”。他们得出结论说,“这些结果表明,GPT-3已经发展出了一个抽象的后继概念,可以在不同的领域之间灵活地推广”。
但是,也存在一些奇怪的故障。该软件并不始终能够识别出它被呈现这些问题的时候,除非给出提示来提供答案,或者问题以句子的形式提出,而不是以值的集合形式提出。
从故事中学习
然而,并非所有的事情对研究人员来说都是黯淡无光的。他们在从文本中提取含义方面比GPT-3做得要好得多。通过给参与者(无论是人类还是软件)提供一个长度为段落的故事,然后询问他们哪个额外的故事最接近原始故事,来测试这一点。其中只有一个选项能保持类似原始故事的因果关系等特征。
然而,研究人员指出,他们进行了一些有关软件的更新版本GPT-4的初步测试,结果表现出了更好的性能。因此,研究人员不应觉得自己的优势会持续下去。
在论文中描述的最后一组测试中,参与者被提供了一个没有明显解决方案的问题,然后提供了一个包含解决方案的类比故事。人们通常能够从故事中抽取教训,然后将该教训应用于原始问题。而GPT-3在许多情况下也能做到这一点。
但是它很容易失败。给它一些额外的干扰故事,除非特别提示,否则软件将无法找出类比,尽管一旦提示,它通常能够确定最相关的故事。而且,当面对需要物理解决方案的问题时,软件通常会提出机械上不可能实现的答案。因此,虽然它能够识别类比,但无法理解如何根据其他领域的知识限制类比。
这告诉我们什么?
从这些结果来看,我们可以说人工智能已经掌握了类比推理,或者至少在这方面比许多人类更有能力。但实际情况要比这复杂得多。例如,研究人员指出,训练一台人工智能处理人类语言,而不使其发展处理类比的能力几乎是不可能的:“人类的自然语言中充斥着类比;因此,准确地预测自然语言可能需要一种欣赏类比的能力。”
此外,这里进行的具体测试经常与大型语言模型的训练直接对应。GPT-3及其同类基于其预测文本中下一个词的能力进行学习,而其中几个测试要求它预测系列中的下一个项目。因此,这个软件可能会因为正确答案而得到正向强化。
最后,人类推理的一部分能力涉及保留成功的推理片段并将其应用于新的情境。相反,GPT-3除了它的基本能力外,在重置之后就失去了一切。作者指出:“GPT-3可以利用一般故事指导其解决类似问题的方法,但一旦其上下文缓冲区被清空,它会恢复给出非类比解决方案的问题答案——系统对处理类比一无所获。”
来源:https://arstechnica.com/science/2023/07/large-language-models-beat-undergrads-on-tests-of-reasoning-via-analogy/