谷歌云升级Kubernetes引擎以应对大型语言模型需求

2024年11月14日由 daydream 发表 216 0

随着生成式人工智能模型的参数规模持续增长，部分模型已达到2万亿参数级别，对大型语言模型的计算和存储需求也随之激增。

微信截图_20241114110823

谷歌云近日宣布，其Kubernetes引擎（GKE）已进行升级，以应对更大规模模型的需求。现在，GKE支持高达65,000个节点的集群，较之前支持的15,000个节点集群有了显著提升。这一升级将提供足够的规模和计算能力，以处理全球最复杂、资源消耗最大的AI工作负载。

训练这些多万亿参数的模型，需要超过10,000个节点的集群来运行AI加速器工作负载。参数是AI模型中的变量，控制模型的行为和预测能力。随着变量数量的增加，模型的预测准确性可能得到提升。这些参数类似于模型开发者可以调整的旋钮或开关，以优化性能和准确性。

谷歌云Kubernetes和无服务器产品的高级总监表示，全球范围内的大型语言模型（LLM）规模持续扩大，需要非常大的集群才能高效运行。这些集群不仅需要规模大，还需要可靠、可扩展，并能应对大型LLM训练工作负载所遇到的挑战。

GKE是谷歌提供的托管Kubernetes服务，可简化容器环境的运行。GKE能够根据工作负载需求的变化自动添加和删除硬件资源，如专用AI芯片或图形处理单元。此外，它还负责Kubernetes更新和其他维护任务。

新的65,000个节点集群能够管理分布在250,000个张量处理单元（TPU）上的AI模型，TPU是专为加速机器学习和生成式AI工作负载设计的专用AI处理器。这标志着GKE单个集群的TPU芯片数量从之前的50,000个增加了五倍。

这一升级极大提高了运行大规模AI工作负载的可靠性和效率。对于大型AI训练和推理而言，增加的规模都至关重要，因为Kubernetes允许用户处理基于硬件的故障，而无需担心停机时间。此外，额外的容量还可以用于在更短的时间内运行更多模型迭代，从而加快作业完成时间。

为实现这一升级，谷歌云正在将GKE从开源的etcd（分布式键值存储）迁移到更强大的系统，该系统基于谷歌的分布式数据库Spanner。这将使GKE集群能够处理几乎无限的规模，并提供更低的延迟。

谷歌还对GKE基础设施进行了重大改进，使其扩展速度显著提高，从而帮助客户更快地满足需求。现在，单个集群可以运行五个作业，每个作业都达到了谷歌云之前训练LLM的记录规模。

这一升级需求的推动因素包括客户对AI系统的关注、AI在系统中的普及以及AI在整个行业的快速增长。包括前沿AI模型开发商Anthropic PBC在内的谷歌云客户，一直在利用GKE的集群功能来训练他们的模型。

据透露，过去一年中，GKE上TPU和图形处理单元的使用量增长了900%。这一增长是由AI的快速发展所驱动的，未来AI将占Kubernetes引擎使用量的绝大部分。

文章来源：https://siliconangle.com/2024/11/13/google-cloud-updates-kubernetes-engine-support-trillion-parameter-ai-models/

标签：

谷歌大型语言模型人工智能

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 DeepL推出实时语音翻译功能，拓展至音频领域

下一篇特朗普承诺废除拜登的AI法案，OpenAI提议美国加大对AI行业支持力度

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来

每个人都应该知道的48个AI术语

openwebtext glue shunk031/JGLUE piqa wikitext sciq EleutherAI/lambada_openai facebook/flores

AI热点

行业学习机器学习人工智能公司板人工智能未来机器人视觉识别

AI工具

更多工具 »

火山写作

字节跳动旗下团队推出的免费AI英语写作助手

Stable Diffusion

StabilityAI推出的文本到图像生成AI

GitHub Copilot

GitHub AI编程工具

Adobe Firefly

Adobe最新推出的AI图片生成工具

文心一格

AI艺术和创意辅助平台

本周热门

热门企业

热门职位

Maluuba

20000~40000/月

Unity技术经理

Cisco

25000~30000/月深圳市

高级数据分析工程师

PilotAILabs

30000~60000/年深圳市