几十年来,电子工程师一直在努力开发能够更快地进行复杂计算并消耗更少能量的先进设备。随着人工智能和深度学习算法的出现,这一需求变得更加迫切,因为这些算法通常在数据存储和计算负载方面都有很高的要求。
一种有前景的运行这些算法的方法被称为模拟内存计算(AIMC)。顾名思义,这种方法是开发能够在单个芯片上执行计算和存储数据的电子设备。为了实现速度和能量消耗的改进,这种方法理想情况下还应支持芯片上的数字操作和通信。
IBM欧洲研究院的研究人员最近开发了一种基于相变存储器器件的新型64核混合信号内存计算芯片,能更好地支持深度神经网络的计算。他们在《自然电子学》杂志上发表的一篇论文中介绍了这款64核芯片,并取得了非常有希望的结果,既保留了深度学习算法的准确性,同时降低了计算时间和能量消耗。
论文作者之一Manuel Le Gallo告诉Tech Xplore杂志:“我们已经研究如何使用相变存储器(PCM)设备进行计算已有超过7年的时间,从我们首次展示如何使用单个PCM设备实现神经元功能开始。”“此后,我们证明了许多应用可以从使用PCM设备作为计算元素中受益,例如科学计算和深度神经网络推理。在我们使用原型PCM芯片进行硬件/软件实现时,我们演示了几乎没有精度损失。通过这款新芯片,我们希望朝着一款端到端的模拟人工智能推理加速器芯片迈出一步。”
为了创建他们的新内存计算芯片,Le Gallo及其同事们将基于PCM的核心与数字计算处理器相结合,通过芯片上的数字通信网络连接所有核心和数字处理单元。他们的芯片由64个模拟PCM核心组成,每个核心都包含一个256×256的交叉栏阵列。
Le Gallo解释道:“我们在每个核心中集成了紧凑型的基于时间的模数转换器,用于在模拟和数字世界之间进行转换。”“每个核心还与轻量级数字处理单元集成在一起,用于执行整流线性单元(reLU)神经元激活函数和缩放操作。芯片的中间还集成了一个全局数字处理单元,用于执行长短期记忆(LSTM)网络操作。”
该团队芯片的一项独特特征是其内部的内存核心和全局处理单元通过数字通信网络连接。这使得芯片能够在芯片上执行与神经网络各层相关的所有计算,大大减少了计算时间和功耗。
为了评估他们的芯片,Le Gallo和他的同事进行了一项非常全面的研究,对他们的芯片运行深度学习算法并测试其性能。评估结果非常有希望,当在芯片上运行并在CIFAR-10图像数据集上进行测试时,训练完成图像识别任务的深度神经网络达到了惊人的92.81%的准确率。
Le Gallo表示:“我们相信这是目前所有使用相似技术的芯片中准确率最高的。”“在论文中,我们还展示了如何将模拟内存计算与多个数字处理单元和数字通信结构无缝结合。芯片的8位输入输出矩阵乘法面积吞吐量为400 GOPS/mm2,比基于电阻性内存的先前多核内存计算芯片增加了15倍以上,并实现了可比较的能量效率。”
IBM欧洲研究院的最新工作是迈向支持深度学习算法需求的AIMC芯片开发的进一步步骤。将来,Le Gallo和他的同事们设计引入的芯片可能会进一步更新,以实现更好的性能。
Le Gallo补充说:“根据我们从这款芯片和2021年在VLSI上发布的另一款34片芯片的经验,我们设计了一种端到端的模拟人工智能推理加速器架构,该架构今年早些时候已发表在IEEE的《VLSI系统》上。”“我们的愿景是将许多模拟内存计算片与一种特殊用途的数字计算核心混合在一起,通过大规模并行的2D网格进行连接。结合我们近年来在硬件感知训练方面的发展,我们预计这些加速器将在未来几年内在各种模型上提供与软件等效的神经网络准确性。”