随着生成式人工智能模型的参数规模持续增长,部分模型已达到2万亿参数级别,对大型语言模型的计算和存储需求也随之激增。
谷歌云近日宣布,其Kubernetes引擎(GKE)已进行升级,以应对更大规模模型的需求。现在,GKE支持高达65,000个节点的集群,较之前支持的15,000个节点集群有了显著提升。这一升级将提供足够的规模和计算能力,以处理全球最复杂、资源消耗最大的AI工作负载。
训练这些多万亿参数的模型,需要超过10,000个节点的集群来运行AI加速器工作负载。参数是AI模型中的变量,控制模型的行为和预测能力。随着变量数量的增加,模型的预测准确性可能得到提升。这些参数类似于模型开发者可以调整的旋钮或开关,以优化性能和准确性。
谷歌云Kubernetes和无服务器产品的高级总监表示,全球范围内的大型语言模型(LLM)规模持续扩大,需要非常大的集群才能高效运行。这些集群不仅需要规模大,还需要可靠、可扩展,并能应对大型LLM训练工作负载所遇到的挑战。
GKE是谷歌提供的托管Kubernetes服务,可简化容器环境的运行。GKE能够根据工作负载需求的变化自动添加和删除硬件资源,如专用AI芯片或图形处理单元。此外,它还负责Kubernetes更新和其他维护任务。
新的65,000个节点集群能够管理分布在250,000个张量处理单元(TPU)上的AI模型,TPU是专为加速机器学习和生成式AI工作负载设计的专用AI处理器。这标志着GKE单个集群的TPU芯片数量从之前的50,000个增加了五倍。
这一升级极大提高了运行大规模AI工作负载的可靠性和效率。对于大型AI训练和推理而言,增加的规模都至关重要,因为Kubernetes允许用户处理基于硬件的故障,而无需担心停机时间。此外,额外的容量还可以用于在更短的时间内运行更多模型迭代,从而加快作业完成时间。
为实现这一升级,谷歌云正在将GKE从开源的etcd(分布式键值存储)迁移到更强大的系统,该系统基于谷歌的分布式数据库Spanner。这将使GKE集群能够处理几乎无限的规模,并提供更低的延迟。
谷歌还对GKE基础设施进行了重大改进,使其扩展速度显著提高,从而帮助客户更快地满足需求。现在,单个集群可以运行五个作业,每个作业都达到了谷歌云之前训练LLM的记录规模。
这一升级需求的推动因素包括客户对AI系统的关注、AI在系统中的普及以及AI在整个行业的快速增长。包括前沿AI模型开发商Anthropic PBC在内的谷歌云客户,一直在利用GKE的集群功能来训练他们的模型。
据透露,过去一年中,GKE上TPU和图形处理单元的使用量增长了900%。这一增长是由AI的快速发展所驱动的,未来AI将占Kubernetes引擎使用量的绝大部分。