训练有素的神经网络的行为解释仍然是一个引人注目的谜题,特别是当这些模型在规模和复杂性上不断增长时。就像历史上的其他科学挑战一样,逆向工程来理解人工智能系统的工作原理需要大量的实验:制定假设、干预行为,甚至解剖大型网络以检查单个神经元。
迄今为止,大多数成功的实验都涉及大量的人为监督。解释像GPT-4这样规模的模型内每一次计算几乎肯定会需要更多的自动化——可能甚至需要使用AI模型本身。
麻省理工学院的计算机科学与人工智能实验室(CSAIL)的研究人员开发了一种新方法,使用AI模型对其他系统进行实验并解释它们的行为。他们的方法使用从预训练的语言模型构建的代理,以直观的方式解释训练有素的网络内的计算过程。
这一策略的核心是“自动解释性代理”(AIA),旨在模仿科学家的实验过程。解释性代理规划和执行对其他计算系统的测试,这些系统的规模可以从单个神经元到整个模型,以产生这些系统的各种形式的解释:语言描述系统做了什么、在哪里失败,以及复制系统行为的代码。
与现有的被动分类或总结样例的解释性程序不同,AIA积极参与假设形成、实验测试和迭代学习,从而实时提炼它对其他系统的理解。
补充AIA方法的是新的“功能解释和描述”(FIND)基准,这是一个测试床,包含了类似于训练网络内部计算的功能及其行为的描述。
评估真实网络组件描述质量中的一个关键挑战是,描述的好坏取决于它们的解释能力:研究人员无法获取单元或学习到的计算的基础真相标签。FIND解决了这一领域长期存在的问题,提供了评估解释性程序的可靠标准:对功能的解释(例如,由AIA生成的)可以与基准中的功能描述进行比较。
例如,FIND包含了旨在模仿语言模型内部真实神经元行为的合成神经元,其中一些对单个概念如"地面交通"有选择性。AIA获得对合成神经元的黑盒访问,并设计输入(例如"树"、"幸福"和"汽车")以测试神经元的响应。在注意到一个合成神经元对"汽车"的响应值比其他输入更高之后,AIA可能会设计更精细的测试来区分神经元对汽车的选择性与其他形式的交通工具,如飞机和船只。
当AIA产生描述如“这个神经元选择性地用于道路交通,而不是空中或海上旅行”时,这个描述会根据FIND中合成神经元的基础真相描述(“选择性地用于地面交通”)进行评估。然后可以使用这个基准来比较AIA的能力与文献中的其他方法。
Sarah Schwettmann博士,这项新工作论文的共同主要作者和CSAIL的研究科学家,强调了这种方法的优势。该论文可在arXiv预印本服务器上获得。
“AIAs自主假设生成和测试的能力可能能够发现科学家可能难以检测到的行为。令人称奇的是,当装备了探测其他系统的工具时,语言模型能够进行这类实验设计。”Schwettmann说。"有清晰简单的基准,并具有基础真相答案,一直是推动语言模型更通用能力的主要动力,我们希望FIND在可解释性研究中可以发挥类似的作用。"
自动化解释性
大型语言模型仍然保持着技术界需求明星的地位。在LLM方面的最新进展突出了它们执行跨不同领域的复杂推理任务的能力。CSAIL的团队认识到,鉴于这些能力,语言模型可能能够作为自动解释性代理的支柱。
“解释性在历史上一直是一个多面性的领域。”Schwettmann说。"没有一种适用于所有情况的方法;大多数程序非常具体于我们可能对系统有的个别问题,以及个别模式,如视觉或语言。现有的方法用于标记视觉模型内部单个神经元已经要求在人类数据上训练专门的模型,这些模型仅执行这个单一任务。”
"由语言模型构建的解释性代理可以提供一个解释其他系统的通用接口——综合实验结果,整合不同模式,甚至在非常基础的层面上发现新的实验技术。"
当执行解释工作的模型本身是黑箱时,我们进入了一个外部评估解释性方法变得越来越重要的时期。该团队的新基准解决了这一需求,提供了一系列功能,这些功能具有已知结构,模仿了在野外观察到的行为。FIND内部的功能涵盖了多种领域,从数学推理到对字符串的符号操作,到基于单词级任务构建的合成神经元。
这个交互功能的数据集是通过程序构建的;通过添加噪声、组合功能和模拟偏差,在简单的功能中引入了真实世界的复杂性。这允许在一个转化为现实世界性能的设置中比较解释性方法。
除了功能数据集外,研究人员还引入了一种创新的评估协议来评估AIAs和现有的自动解释性方法的有效性。这项协议包括两种方法。对于需要用代码复制功能的任务,评估直接将AI生成的估计与原始的、地面真相的功能进行比较。对涉及自然语言描述功能的任务,评估变得更加复杂。
在这些情况下,准确评估这些描述的质量需要对它们的语义内容进行自动理解。为了解决这个挑战,研究人员开发了一个专门的“第三方”语言模型。这个模型专门训练用来评估AI系统提供的自然语言描述的准确性和连贯性,并将其与地面真相的功能行为进行比较。
FIND使评估显示我们还远未完全自动化解释性;尽管AIAs的表现超过了现有的解释性方法,但它们仍然未能准确描述几乎半数功能在基准中的描述。
Tamar Rott Shaham博士,该研究的共同主要作者和CSAIL的博士后,注意到“虽然这一代AIAs在描述高层功能方面十分有效,但它们仍经常忽视更精细的细节,特别是在有噪声或不规则行为的功能子域中。
“这可能源于这些区域的抽样不足。一个问题是AIA的效果可能会受到它们最初探索性数据的阻碍。为了对抗这个,我们尝试通过用特定的、相关的输入初始化它们的搜索来指导AIAs的探索,这显著提高了解释的准确性。”这种方法将新的AIA方法与使用预先计算的例子启动解释过程的先前技术相结合。
研究人员还在开发一套工具包来提高AIAs在黑盒和白盒设置中对神经网络进行更精确实验的能力。这个工具包旨在为AIAs装备更好的工具以选择输入和精化假设测试能力,以便于更细微和准确的神经网络分析。
该团队还在解决AI解释性的实际挑战,专注于确定在现实世界场景中分析模型时提出正确问题。他们的目标是开发自动解释性程序,这些程序最终可能帮助人们审计系统—例如,用于自动驾驶或面部识别—在部署前诊断潜在的失效模式、隐藏的偏见或令人惊讶的行为。
观察者的观察者
该团队设想有一天开发几乎自主的AIAs,可以审核其他系统,有人类科学家提供监督和指导。先进的AIAs可能会开发新类型的实验和问题,这可能超出了人类科学家最初的考虑。
重点是将AI解释性扩展到更复杂的行为,如整个神经电路或子网络,并预测可能导致不希望的行为的输入。这项开发代表了AI研究中的重要进步,旨在使AI系统更易于理解和可靠。
“好的基准是解决困难挑战的有效工具。”未参与这项研究、哈佛大学计算机科学教授Martin Wattenberg说。“很高兴看到这种复杂的解释性基准,它是当今机器学习中最重要挑战之一。我特别印象深刻的是作者创建的自动解释性代理。这是一种解释性柔术,将AI反过来用于帮助人类理解。”
Schwettmann、Rott Shaham和他们的同事在2023年12月的NeurIPS上展示了他们的工作。其他麻省理工学院的合著者,都是CSAIL和电子工程与计算机科学系(EECS)的附属机构,包括研究生Joanna Materzynska、本科生Neil Chowdhury、Shuang Li博士、助理教授Jacob Andreas和教授Antonio Torralba。东北大学助理教授David Bau是额外的合著者。