随着顶级人工智能(AI)公司开发新型、更强大的大型语言模型(LLM)面临挑战的传言和报道层出不穷,业界对“Transformer”这一架构的替代方案关注度日益上升。Transformer是谷歌研究人员在2017年的开创性论文《Attention Is All You Need》中提出的,也是当前大多数生成式AI热潮的底层技术。
Transformer是一种深度学习神经网络架构,用于处理序列数据,如文本或时间序列信息。
近期,源自麻省理工学院(MIT)的初创公司Liquid AI推出了STAR(Synthesis of Tailored Architectures)框架,旨在自动化生成和优化AI模型架构。
STAR框架采用进化算法和数值编码系统,以解决深度学习模型中质量与效率平衡这一复杂挑战。
Liquid AI的研究团队,包括Armin W. Thomas、Rom Parnichkun、Alexander Amini、Stefano Massaroli和Michael Poli,认为STAR的方法是对传统架构设计方法的一种转变。
与传统依赖手动调整或预定义模板的方法不同,STAR使用分层编码技术——“STAR基因组”来探索庞大的潜在架构设计空间。
这些基因组支持重组和突变等迭代优化过程,使STAR能够合成和精炼针对特定指标和硬件要求定制的架构。
Liquid AI首先关注STAR在自回归语言建模方面的应用,这一领域一直由传统的Transformer架构占据主导地位。
在研究期间进行的测试中,Liquid AI团队展示了STAR生成架构的能力,这些架构在性能上持续优于高度优化的Transformer++和混合模型。
例如,在优化质量和缓存大小时,STAR进化的架构相比混合模型实现了高达37%的缓存大小减少,相比Transformer则减少了90%。尽管这些效率有所提升,但STAR生成的模型在预测性能上仍保持或超过了同类模型。
同样,在优化模型质量和大小的任务中,STAR将参数数量减少了多达13%,同时在标准基准测试中提高了性能。
研究还强调了STAR的扩展能力。一个从1.25亿参数扩展到10亿参数的STAR进化模型,在显著减少推理缓存需求的同时,提供了与现有Transformer++和混合模型相当或更优的结果。
Liquid AI表示,STAR基于一种设计理论,融合了动力学系统、信号处理和数值线性代数的原则。
这种基础方法使团队能够开发一个通用的计算单元搜索空间,包括注意力机制、递归和卷积等组件。
STAR的一个显著特点是其模块化,该框架能够在多个层次级别上编码和优化架构。这种能力提供了对重复设计模式的见解,并使研究人员能够识别有效的架构组件组合。
至于STAR的未来,其合成高效、高性能架构的能力在语言建模之外具有潜在应用。Liquid AI设想这一框架可用于解决各种领域中质量与计算效率权衡至关重要的挑战。
虽然Liquid AI尚未透露商业部署或定价的具体计划,但研究成果标志着自动化架构设计领域取得了重大进展。对于希望优化AI系统的研究人员和开发人员来说,STAR可能是一个推动模型性能和效率边界的强大工具。
Liquid AI采取了开放的研究方法,在同行评审论文中公布了STAR的全部细节,鼓励合作和进一步创新。随着AI领域的不断发展,像STAR这样的框架有望在塑造下一代智能系统中发挥关键作用。