推理和CPU的比例增长

2023年09月22日 由 alex 发表 221 0

在开发者社区中有这样一句话:“培训成本与研究人员数量成正比,推理成本与用户数量成正比。”设想一下未来几年,当所有大型科技公司拥有自己的模型并且专门用于特定用例的多模态基础模型时。


特色2


现在考虑以下场景:虽然进行一次AI模型的训练运行的成本可能很高,但运行推理,即将训练好的模型应用于实际数据,成本相对较低。然而,潜在用户和不同应用的规模之大意味着推理操作的累计总量最终将超过训练所花费的总计算周期。需求将从用于训练的硬件和软件转向用于推理的需求。


如今许多组织更喜欢不进行LLM(语言模型)的精细调整,因为可以通过参数调整、提示库或抽样响应来调整预训练模型。如果进行精细调整,通常仅对特定领域语料库中的有限数量的标记进行调整,从而仅偶尔产生培训成本。


组织面临的主要成本出现在推理过程中,特别是用户数量和问题增加时。为了管理这些费用,组织采用了各种推理级别的优化策略。即使对于相对较小的用例,比如汽车行业中的客户聊天机器人,在使用专有的LLM时,每月的成本也可以从2000美元到2500美元不等,假设仅有少部分用户与之互动。随着用户使用量的增长,由于标记生成的增加,成本可能会大幅上升。


AMD正在战略性地专注于AI推理,不再沿袭传统的以GPU为中心的路径。收购AI软件公司Mipsology表明了AMD增强AI软件能力并提供全面解决方案(包括CPU),通过AMD统一AI堆栈简化AI模型的部署。这表明了AMD确立自己作为AI计算的重要参与者的决心,强调基于CPU的推理解决方案。


英特尔也强调利用其CPU能力进行AI推理。其Xeon Scalable处理器搭配英特尔DL Boost VNNI和英特尔AMX等硬件特性是其AI推理策略的核心。英特尔参与MLPerf推理v3.1等基准测试表明其在各种模型上具有竞争力的AI推理性能。


Habana Gaudi2加速器和第四代英特尔Xeon Scalable处理器是处理AI工作负载的强大选择。此外,英特尔为AI推理提供平衡的平台,具有更大的缓存、更高的核心频率和其他优势,使英特尔CPU成为多样化AI推理流水线的有力竞争者。英特尔通过开源进一步挑战了以GPU为中心的AI推理场景的看法。


虽然很难控制用户行为,但组织正在寻求在硬件层面降低每个标记的成本,这在管理整体费用方面可能非常有益。


CPU:推理中的新兴技术


据该生态系统的人士表示,CPU有望在推理方面成为有竞争力的参与者。虽然长期以来CPU在训练方面被认为比GPU慢,但它们在推理方面具有一系列优势。此外,与GPU相比,它们可以提供每个算术运算的性价比更高的性能。


在AI中,训练工作负载的分布仍然具有挑战性,而推理可以在许多低成本CPU上高效分布。这使得一群廉价的个人电脑成为依赖ML推理的应用程序的一个有吸引力的选择。


与训练不同,推理通常需要处理小型或单个输入批次,需要不同的优化方法。此外,模型的某些元素(如权重)在推理过程中保持不变,可以受益于权重压缩或常数折叠等预处理技术。


推理在延迟方面提出了独特的挑战,这对于面向用户的应用程序至关重要。


随着推理成本的持续占据中心舞台,它将对开发AI应用的方法产生重大影响。研究人员重视快速实验和迭代的能力,需要工具的灵活性。相反,应用程序往往会长时间保留其模型,一旦满足需求,就会使用相同的基本架构。这种对比可能导致未来模型作者使用专门的工具,并将结果交给部署工程师进行优化。


在这个不断变化的环境中,传统的x86和Arm等CPU平台有望成为赢家。推理将需要无缝集成到传统的业务逻辑中用于最终用户应用程序,这使得专门的推理硬件由于延迟问题而难以有效运行。因此,预计CPU将逐渐整合越来越多的机器学习支持,最初作为协处理器,最终作为与CPU中浮点支持演化相似的专门指令。


即将发生的人工智能领域的转变对硬件开发具有重大影响。


NVIDIA如何优化GPU进行推理


NVIDIA已经意识到了这一点。为了增强其H100产品,NVIDIA通过其新的TensorRT-LLM(一种开源软件)在对LLM进行推理时提供了比H100 GPU高两倍的性能,极大地提高了整体速度和效率。


TensorRT-LLM以多种方式优化LLM推理。它包括最新的LLM版本(如元Llama 2、GPT-2、GPT-3、Falcon、Mosaic MPT和BLOOM)的即时运行版本。它还集成了高效LLM执行的前沿开源AI内核。此外,TensorRT-LLM通过Nvidia的NVLink和InfiniBand互连技术自动化多个GPU和GPU服务器上的LLM同时执行,消除了手动管理,并引入飞行中批处理以改善GPU利用率。


此外,它针对H100的Transformer引擎进行了优化,减少了GPU内存使用。这些功能提升了LLM推理性能、可扩展性和能源效率,并支持H100之外的各种Nvidia GPU。


传统上,许多机器学习研究人员认为推理是训练的一个子集,但随着推理占据重要地位,这种观点似乎即将改变。

文章来源:https://analyticsindiamag.com/the-proportional-rise-of-inference-and-cpus/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
写评论取消
回复取消