NVIDIA已经更新了其NeMo框架,并在H200 GPU上增强了大型语言模型(LLM)的训练。这些发展针对的是人工智能领域的开发者和研究人员,特别是那些从事AI基础模型如Llama 2和Nemotron-3的工作。
经过更新的NeMo框架,现在已经成为云原生的,支持更广泛的模型架构,并采用先进的并行技术以实现高效训练。特别地,H200 GPU在提升Llama 2模型的性能方面有了显著的进步,超过了之前版本的表现。
这些工具宣布在12月4日并现已全球可用,服务于各种应用,从学术研究到行业使用。
更新的目标是满足对于在复杂和多样化的大型语言模型中更好的训练性能的不断增长的需求。他们关注于加速训练过程、提高效率和扩展模型能力,这对于需要大量计算的模型来说至关重要。
增强功能包括混合精度实现、优化的激活函数和提高通信效率。H200 GPU达到了每个GPU 836 TFLOPS的性能,显著增加了训练吞吐量。
引入了全分片数据并行性技术(Fully Sharded Data Parallelism)以及混合专家模型架构(Mixture of Experts architecture),优化了模型训练和容量。采用TensorRT-LLM增强了基于人类反馈的强化学习,支持更大的模型并提升了性能。
对于有兴趣的人,NVIDIA将NeMo框架以开源库的形式提供,以及在NGC上提供容器,并作为NVIDIA AI企业版的一部分。NVIDIA还提供了额外的资源,如GTC会议、网络研讨会和SDK,以进一步与NVIDIA的AI工具进行互动。