一个令人惊讶的基准测试结果可能会动摇人工智能推理的竞争格局,初创芯片公司Groq似乎已经通过一系列转发证实,其系统正在以每秒800多个token的速度为Meta最新发布的LLaMA 3大型语言模型提供服务。
一直在对LLaMA 3性能进行基准测试的工程师Dan Jakaitis在X.com上发帖称:“我们一直在测试他们的API,但服务肯定没有硬件演示中展示得那么快。可能更多是一个软件问题——不过,我还是很期待Groq能够得到更广泛的应用。”
但根据OthersideAI的联合创始人兼首席执行官Matt Shumer在X上的帖子,以及其他几位知名用户的说法,Groq系统在使用LLaMA 3模型时,实现了每秒超过800个token的闪电般快的推理速度。如果这一说法得到独立验证,那么与现有的云AI服务相比,这将是一个重大的飞跃。
一种针对人工智能优化的新型处理器架构
Groq是一家资金充足的硅谷初创公司,一直在开发一种新颖的处理器架构,该架构针对矩阵乘法运算进行了优化,而矩阵乘法运算是深度学习的计算核心。该公司的Tensor流式处理器避开了传统CPU和GPU的缓存和复杂控制逻辑,转而采用为人工智能工作负载量身定制的简化、确定性执行模型。
Groq声称,通过避免通用处理器的开销和内存瓶颈,它可以为人工智能推理提供更高的性能和效率。如果每秒800个token的LLaMA 3结果成立,将为这一说法提供证据。
Groq的架构与英伟达和其他知名芯片制造商使用的设计有很大不同。Groq没有将通用处理器用于人工智能,而是构建了Tensor流式处理器,以加速深度学习的特定计算模式。
这种“干净的工作表”方法使该公司能够去除多余的电路,并为人工智能推理的高度重复、可并行的工作负载优化数据流。Groq断言,其结果是,与主流替代方案相比,运行大型神经网络的延迟、功耗和成本显著降低。
快速高效的AI推理的需求
每秒处理800个token的性能相当于每分钟处理大约48000个token,足够每秒生成大约500个单词的文本。这几乎比目前在云端使用传统GPU提供的大型语言模型的典型推理速度快了一个数量级。
随着语言模型增长到数千亿参数的规模,快速高效的AI推理变得越来越重要。虽然训练这些庞大的模型需要巨大的计算强度,但要以成本效益的方式部署它们需要能够快速运行而不消耗大量电力的硬件。这对于对延迟敏感的应用程序(如聊天机器人、虚拟助理和互动体验)尤其重要。
随着技术更广泛地部署,AI推理的能源效率也受到越来越多的审视。数据中心已经是重要的电力消费者,大规模AI的计算需求威胁着显著增加电力消耗。能够在最小化能耗的同时提供必要推理性能的硬件将是实现大规模AI可持续性的关键。Groq的张量流处理器正是以这种效率为重要考虑设计的,承诺与通用处理器相比显著降低运行大型神经网络的电力成本。
挑战英伟达的主导地位
目前,英伟达在AI处理器市场上占据主导地位,其A100和H100 GPU支持绝大多数云AI服务。但像Groq、Cerebras、SambaNova和Graphcore这样的资金充裕的初创公司正通过为AI专门构建的新架构挑战这种主导地位。
在这些挑战者中,Groq一直是最明确表示要同时针对推理和训练的公司之一。首席执行官乔纳森·罗斯大胆预测,到2024年底,大多数AI初创公司将使用Groq的低精度张量流处理器进行推理。
Meta发布的LLaMA 3,被描述为目前最强大的开源语言模型之一,为Groq提供了一个高知名度的机会来展示其硬件的推理能力。Meta声称这个模型与最好的闭源产品不相上下,它可能会广泛用于基准测试,并部署在许多AI应用中。
如果Groq的硬件能够比主流替代品更快更高效地运行LLaMA 3,它将加强这家初创公司的说辞,并可能加速其技术的采用。Groq最近推出了一个新业务单元,通过云服务和合作伙伴关系使其芯片更容易地被客户接触到。
像LLaMA这样强大的开放模型和像Groq这样的高效“AI优先”的推理硬件的结合,可能会使高级语言AI更加经济实惠,让更多的企业和开发者能够轻松获取。但英伟达不会轻易放弃领先地位,其他挑战者也在等待时机。
可以肯定的是,建立能够跟上AI模型开发爆炸性进展的基础设施,并扩展技术以满足快速扩大的应用范围的需求竞赛已经开始了。可负担的成本提供近乎实时的AI推理可能会在电商、教育、金融、医疗等领域开启变革性的可能性。
正如一位 X用户对Groq的LLaMA 3基准测试声明所作的反应:“速度 + 低成本 + 质量 = 现在使用其他东西毫无意义。"未来几个月将揭示这个大胆的方程式是否成立,但很明显,AI的硬件基础远非固定不变,因为新一波架构正挑战现状。