网络管理员如何利用生成式人工智能提升工作效率?
2023年05月26日 由 Susan 发表
651707
0
我们都知道人工智自动化重复任务:包括监控、故障排除和升级,节省时间的同时降低了人为错误的风险。
- 网络安全:人工智能可以帮助实时检测和应对安全威胁。例如,NVIDIA Morpheus 可以让网络安全开发人员创建实时数据的优化 AI 管道。
- 拓扑优化:通过正确的遥测,AI 可以分析流量模式并建议更改系统,实现优化网络性能。
- 主动网络规划:AI 可以使用相同的高级网络遥测来评估趋势,预测潜在问题并建议更改,避免潜在问题发生。对于网络管理员而言,人工智能可以在一些惊人的方面改善日常运营:
然而,人工智能并不能替代经验丰富的网络管理员的专业技能。AI 的作用是增强您的能力 ,就像一个虚拟助手。因此,AI 可能成为您最好的朋友,但生成式人工智能也是一种新的数据中心工作负载,带来了一种新的范式转换:NVIDIA 集体通信库 (NCCL)。
数据中心的演变
网络管理员必须应对许多其他最近的变化:
- 如何配置网络
- 如何监控和管理网络
- 如何设计网络
- 网络上的协议和工作负载
不久之前,我们可能通过对特定网络命令行界面(CLI)的专业技能水平来衡量新网络管理员的价值。随着混合云计算和 DevOps 的出现,从 CLI 到 API 的趋势日益增长。现在,Ansible、SALT 和 Python 等技能比 Cisco 认证更有价值。
即使监控和管理网络的方式也发生了变化。您已经从使用 SNMP 和 NetFlow 跨数据中心轮询设备的工具转向新的基于交换机的遥测模型,其中交换机主动流式传输基于流的诊断详细信息。
您在将新的工作负载引入数据中心方面经验丰富,其中许多具有独特的网络需求。您已经看到传统数据库被数据分析和大数据集群所取代。
现在,当任务是构建一个人工智能集群时,我们很容易认为人工智能只是更大、更快的大数据应用程序。但是人工智能是不同的,如果没有正确的工具,人工智能可能会很难实现。
生成式 AI 和 NCCL 的影响
一家大型企业的网络管理员,首席技术官参加了GTC2023会议,并了解了生成式人工智能。网络管理员希望通过构建像ChatGPT这样的大型语言模型来改变首席技术官的业务方式,用来最终和用户进行响应和互动。该模型必须经过训练。这需要一个由许多 GPU 加速服务器组成,通过一条极快的、高速的网络连接的大型人工智能培训集群。
这个人工智能训练集群带来了许多新的挑战:
- 网络流量模式和流特性会发生显著变化,这些变化与传统 ECMP 不兼容。
- 人工智能集群参考设计需要为计算/GPU、存储,甚至带内管理提供专用网络。
- 网络流量是由 CPU 到 CPU 和 GPU 到 GPU 通信所产生的异构流量。
- 人工智能集群必须准备好同时处理运行在单台服务器上、多台服务器上甚至是同一台服务器上的多个作业。
- 网络配置变化,需要优化 RoCE 和 GPU 直接通信的参数。 人工智能作业必须在多次迭代过程中保持一致和可预测的作业完成时间。
- 新的拓扑结构需要更高带宽的交换机。 需要学习新的首字母缩写:CUDA、NVIDIA DOCA、BERT、LLM、DLRM 和 NCCL。
需要新的监控工具:它们如何确定人工智能和 NCCL 是否运行良好?
以下是NCCL的官方解释:
首先,NVIDIA 集体通信库 (NCCL) 是一种可优化用于 NVIDIA GPU 和网络的多 GPU 和多节点通信基元的实现。NCCL 提供了 all-gather、all-reduce、broadcast、reduce、reduce-scatter 等常规路由,以及面向点对点的发送和接收函数,这些函数经过优化,实现了通过节点内的 PCIe 和 NVLink 高速互连以及跨节点的 NVIDIA Mellanox Network 实现高带宽和低延迟。
来源:NVIDIA 集体通信库 (NCCL)
对于网络管理员来说,NCCL 控制着您全新的 AI 集群的流量模式。这意味着您需要一种为 NCCL 优化的网络设计,为 NCCL 优化的网络监控工具,以及为 NCCL 优化的以太网交换机。
NCCL 是实现 AI 集群工作负载高性能、一致性和可预测性的关键。同时,NCCL 也是网络管理员和数据科学家的交集点:两者都需要掌握并理解 NCCL。当两者都能流利地掌握 NCCL 时,NCCL 可以成为这些具有不同技能需求的专业人士之间的罗塞塔石。
鉴于 NCCL 的重要性,选择正确的网络可以决定 AI 集群的性能成败。AI 集群有一些独特的需求:
- 对噪音有很强的韧性
- 对失败有很强的韧性
- 优化成总线布局
- 无丢包网络转发
- 性能隔离
- 非阻塞网络架构
下一步
您的工作是保持网络不会成为 AI 集群的瓶颈,但是为了进行 AI 网络连接,需要什么呢?高带宽,低延迟和高韧性是必要但不充分的。您如何选择正确的基础设施?
- 基于数据表格?事实并非如此。
- 基于供应商告诉您的?有一定的风险,因为他们想要卖给您一些东西。
- 基于数据科学家的要求?他们不是网络专家,所以他们中的大多数人并不了解。
- 基于经验丰富的网络管理员的建议?他们很可能是基于 CPU 考虑的,而不是 GPU,而且需求已经发生了变化。
为 AI 进行网络连接可能很困难。关于“没有人因为购买 X 产品而被解雇”的格言早已过时,因为 AI 的 X 因素不同于通用计算。即使是拥有专门的 AI 工程团队进行集群性能预测试验的大型 IT 店,在增加更多用户和同时运行多个作业时,性能急剧下降的情况也时常发生,令人惊讶。
保证 AI 集群性能的最佳方式是遵循 NVIDIA 公布的 AI 参考架构之一,并使用具有 AI 可见性功能的基础设施来验证 AI 集群的运行和健康状态。
无论您的 AI 集群使用以太网还是 InfiniBand,NVIDIA 提供工具、支持和培训,以帮助您成功地成为 AI 网络连接的专家。
来源:https://developer.nvidia.com/blog/navigating-generative-ai-for-network-admins/