生成内容、图像、音乐和代码,就像人类一样,但速度惊人且准确无比,生成式人工智能旨在帮助企业提高效率并促进创新。随着人工智能的日益普及,对于生产这些结果所需的成本(无论是财务上还是环境上)以及如何产生这些结果的审查将会更加严格。
我们现在有机会提前解决这个问题,并评估资源的主要分配方向。推理是AI模型根据其人工神经元存储的智能对新数据进行分析的过程,是最耗能和成本高昂的模型构建实践。需要取得平衡的是,在不危及质量和产量的情况下,实施更可持续的解决方案。
一个模型的构建
对于初学者来说,很难想象人工智能和编程基础算法如何担负起如此巨大的环境和经济负担。对机器学习(ML)的简要概括描述了这个过程分为两个阶段。
第一个阶段是训练模型以开发智能并对特定类别中的信息进行标记。例如,一个电子商务公司可以将其产品和客户习惯的图像输入模型,让其在后续过程中对这些数据点进行更深入的分析。
第二个阶段是识别,或者说是推理,模型将使用存储的信息来理解新的数据。例如,电子商务企业可以将产品分类为类型、尺寸、价格、颜色和其他一系列分段,同时向客户提供个性化的推荐。
推理阶段是这两个阶段中计算需求较低的阶段,但一旦在大规模部署,例如在Siri或Alexa等平台上,累积的计算潜力有可能消耗巨大的能源,进而导致成本和碳排放上升。
推理和训练之间最引人注目的不同之处之一在于所使用的资金支持。推理与销售成本相关联,因此会影响利润,而训练通常与研发支出相关联,这些支出在实际产品或服务之外是单独预算的。
因此,推理需要采用专用硬件来优化成本和功耗效率,以支持可行的可扩展商业模型 , 这是一个让商业利益与环境利益保持一致的解决方案。
隐藏的成本
生成式人工智能(gen AI)的灵感之源 - ChatGPT是推理成本巨大的显著例子,每天产生数百万美元的成本(这甚至还不包括其训练成本)。
OpenAI最近发布的GPT-4被估计比之前的版本需要三倍的计算资源,拥有据称运行在128个GPU集群上的16个专家模型,被认为拥有1.8万亿个参数,将耗费巨额能量。
大量的计算需求通过输入和输出的数据流动使问题进一步恶化。当DLAs进行数据处理时,CPU主机为了处理大量数据的输入和输出任务,以及对DLA输出数据进行数据处理任务,会进行重大的数据流动,与此同时,DLA本身也需要能源来进行输入数据的处理和输出数据的处理。
再次强调,作为串行处理组件,CPU正在制造瓶颈,它无法像需要保持DLA忙碌一样有效地执行任务。
当一家公司依赖CPU来管理深度学习模型中的推理时,无论DLA多么强大,CPU都会达到一个最优阈值,然后开始无法承受负载。想象一辆车只能以引擎允许的速度行驶:如果一辆小型汽车的引擎被一辆跑车的引擎所替换,由于更强大的引擎施加的速度和加速度,小型汽车将会崩溃。
同样的情况也适用于以CPU为主导的AI推理系统 - 通常情况下,DLA(尤其是GPU)正在高速运转,每秒完成成千上万的推理任务,但CPU的限制让它们无法发挥其能力。
系统范围解决方案的需求
正如NVIDIA首席执行官黄仁显所说:“人工智能需要对计算进行整体革新...从芯片到系统。”
随着人工智能应用程序和专用硬件加速器(如GPU或TPU)的指数级增长,我们需要将注意力转向这些加速器周围的系统,构建能够支持所需的数据处理量和速度的系统范围解决方案。我们需要能够处理大规模人工智能应用程序,同时以降低的成本和能量投入实现无缝模型迁移的解决方案。
建立在CPU为中心的人工智能推理服务器之外的替代方案对于提供高效、可扩展和经济可行的解决方案以满足人工智能在企业中的可持续需求非常重要,同时也需要解决这种人工智能使用增长对环境造成的影响。
普及人工智能
目前业界有许多解决方案可以在减少成本的同时保持生成式人工智能的活力和发展。专注于使用清洁能源来供应人工智能的电力可以是一种途径;另一种途径可以是在可利用可再生能源的特定时段进行计算处理。
对于数据中心而言,AI驱动的能源管理系统可能会实现成本节约,并改善运营的环境认证。除了这些策略之外,在硬件方面进行投资是人工智能中最有价值的投资。硬件是处理所有计算的锚点,承担着能耗巨大计算的重担。
一个能够以较低的财务和能源成本支持所有处理的硬件平台或AI推理服务器芯片将具有革命性的意义。这将是我们普及人工智能的方式,因为小型企业可以利用不依赖于大企业资源的人工智能模型。
ChatGPT的查询机器每天消耗数百万美元,而一种基于可用资源更少的功耗和GPU数量的替代服务芯片解决方案将节省资源,并减轻全球能源系统的负担,从而实现环境友好、经济合理且面向所有人的生成式人工智能应用。