OpenAI最近发布了Transformer Debugger,这是一款能够深入了解Transformer模型工作原理的工具。这一工具的发布标志着AI操作透明度的进一步提升。
这一新进展是在其最近因未公开其研究成果而遭到批评,以及埃隆·马斯克宣布决定公开Grok源代码的背景下发布的。然而,OpenAI已经有一些开源模型,包括GPT-2、Whisper、CLIP、Jukebox和Point E。
Transformer Debugger允许对Transformers的内部结构进行分析。它结合了自动化解释功能和稀疏自动编码器技术。这种组合有助于快速探索模型,使用户能够了解模型内部“电路”的各个方面,而无需编写代码。
该工具设计用于处理神经网络组件,如神经元和注意力头,提供了一种实用的方法来干预模型的前向传递。例如,用户可以移除特定的神经元,以观察其对模型输出的影响。这一特性提供了一种直接的方法来手动探索和了解神经网络内部的“电路”,其中“电路”指的是特定的功能组件及其相互连接。
Open AI的机器学习与对齐研究员Jan Leike表示,这款研究工具仍处于早期阶段,但“我们发布它是为了让其他人可以使用并在此基础上进行构建!”它的目标是帮助研究人员发现小型AI语言模型为何会以特定方式表现,从而提供对AI决策过程的详细观察。
该工具建立在基础性研究之上,包括对语言模型如何解释语言模型中的神经元和单一语义特征的研究。然而,OpenAI指出,此次发布并没有伴随新的发现,而是提供了一个平台,用于持续探索和理解AI模型。