微软Azure现在支持Nvidia的GPU Cloud进行深度学习模型的训练和推理
2018年08月30日 由 浅浅 发表
515067
0
Microsoft Azure云客户现在可以使用Nvidia的GPU Cloud进行深度学习模型的训练和推理。
Nvidia GPU Cloud提供软件容器,以加速研究人员和开发人员的高性能计算(HPC)和深度学习。由Nvidia Volta及其Tensor Core GPU架构提供支持的GPU Cloud于2017年春季推出。
Nvidia容器注册表支持流行的深度学习工具,如TensorFlow,Microsoft Cognitive Toolkit和PyTorch。像Tesla V100这样的Nvidia芯片在今天的许多世界上最大的超级计算机中使用,并且与其他图形处理单元芯片一起,对于提高计算能力以实现深度学习至关重要。
据博客文章称,微软今天宣布推出Azure CycleCloud,这是一款用于管理Azure中高性能计算集群的工具。
目前,Azure推动高性能和加速计算的新领域,大量客户正在利用Azure实现突破性创新。
微软在公共云中提供最广泛的加速和高性能计算(HPC)功能。从用于AI和HPC的支持InfiniBand的虚拟机系列到用于Cray超级计算的超大规模服务,Azure使客户能够提供全方位的AI和机器学习应用程序。
Azure CycleCloud:在Azure上执行HPC的最简单方法
Azure CycleCloud具有普遍可用性,这是一个用于创建,管理,操作和优化Azure中任何规模的HPC群集的工具。
借助Azure CycleCloud,每个人更轻松地部署,使用和优化HPC群集。对于运行传统HPC群集的用户,使用包括SLURM,PBS Pro,Grid Engine,LSF,HPC Pack或HTCondor的调度程序,这将是在云中启动和运行群集以及管理计算/数据工作流的最简单方法,实现用户访问权限以及减少HPC工作负载的成本。
只需点击几下,HPC IT管理员就可以在Azure中部署高性能的计算,存储,文件系统和应用程序功能集群。Azure CycleCloud基于角色的策略和治理功能使其组织可以轻松地在需要时提供混合计算能力,同时避免失控的成本。用户可以依靠Azure CycleCloud来协调跨这些群集的作业和数据工作流。
采用Azure的NVIDIA GPU Cloud
由于GPU为AI和HPC提供了出色的性能,因此Microsoft Azure提供了各种支持NVIDIA GPU的虚拟机。从今天开始,Azure用户和云开发人员通过功能强大的GPU优化软件,充分利用Azure上支持的NVIDIA GPU,提供了一种加速AI和HPC工作流程的新方法。
现在,NVIDIA Volta和Pascal支持的Azure NCv3,NCv2和ND支持来自NVIDIA GPU云(NGC)容器注册表的容器。这将Azure云基础架构中NVIDIA GPU的强大功能与来自NGC的综合深度学习库和HPC容器结合在一起。
NGC容器注册表包括NVIDIA经过调整,测试和认证的容器,用于深度学习软件,如Microsoft Cognitive Toolkit,TensorFlow,PyTorch和NVIDIA TensorRT。通过广泛的集成和测试,NVIDIA为每个框架创建了一个最佳软件堆栈(包括所需的操作系统补丁,NVIDIA深度学习库和NVIDIA CUDA工具包),使容器能够充分利用NVIDIA GPU。NGC的深度学习容器每月更新一次,包含最新的软件和组件更新。
NGC还为HPC提供经过全面测试的GPU加速应用程序和可视化工具,如NAMD,GROMACS,LAMMPS,ParaView和VMD。这些容器简化了部署,使你可以使用最新功能快速启动和运行。
为了便于在Azure中使用NGC容器,Azure Marketplace上提供了一个名为NVIDIA GPU Cloud Image for Deep Learning和HPC的新映像。此映像提供了一个预配置的环境,用于在Azure上使用来自NGC的容器。Azure NCv2,NCv3和ND虚拟机上的NGC容器也可以通过遵循这些GitHub指令与Azure Batch AI一起运行。
要从此映像访问NGC容器,只需注册一个免费帐户,然后将容器拉入Azure实例。要了解有关使用Azure和NGC加速HPC和AI项目的更多信息,请在10月2 日注册参加网络研讨会。
Azure:投资使云中的HPC,AI和GPU变得简单
Microsoft致力于使Azure成为HPC的首选云。Azure CycleCloud和NVIDIA GPU简化了集成以及管理和扩展的能力。使用Avere vFXT实现混合云性能的近期发展将增强最小化延迟的能力,同时利用本地NAS或Azure blob存储以及Azure CycleCloud和Azure Batch工作负载。
在最近在云中提供深度学习的其他工作中,微软今年早些时候推出了Project Brainwave,这是一项Azure服务,用于服务由英特尔Stratix 10现场可编程门阵列(FPGA)芯片驱动的AI模型,旨在提供比CPU更快的性能或GPU。
高性能计算在当今的各个领域都有应用,包括为医疗和医学研究提供动力,如药物发现,为军队和政府运行复杂的模拟,以及执行金融解决方案。