NVIDIA 依据宽松的NVIDIA开放模型许可协议,正式推出了Nemotron-4 340B模型系列。这一系列模型包含了基础、指令和奖励模型,它们不仅在保持高效的同时,也不断地推动着开放访问AI领域的发展边界。
Nemotron-4 340B模型在各种基准测试中均展现出了卓越的性能,经常超越现有的开放模型。尤为值得一提的是,这些模型被优化为在单个NVIDIA DGX H100系统上,仅需使用8个GPU即可运行。这种高效性无疑会让更广泛的研究人员和开发者对它们产生浓厚的兴趣。在众多基准测试中,它都优于Llama-3 70B和Mixtral 8X7B等模型。
NVIDIA坚信,这些模型将在研究和商业应用方面为AI社区带来极大的益处。特别值得一提的是,它们的一个应用场景是生成高质量的合成数据,用以训练更小、更专业的AI模型。实际上,在Nemotron-4的开发过程中,合成数据发挥了至关重要的作用。
用于训练Nemotron-4 340B指令模型的98%以上的数据,都是利用基础模型和奖励模型合成的。这充分展示了这些模型在创造有价值训练数据方面的巨大潜力。更令人振奋的是,NVIDIA还将公开这一合成数据生成过程所使用的管道,让更多人能够利用这种方法。
Nemotron-4 340B基础模型在一个包含9万亿个标记的大规模数据集上进行了训练,这些数据覆盖了多种英语文本、多语言数据和编程语言。它采用了标准的变压器架构,并通过分组查询注意力和旋转位置嵌入等尖端技术进行了增强。
基于这一坚实的基础,指令模型通过结合人类标注和合成数据进行了监督微调和偏好优化。NVIDIA开发了一种新颖的“迭代从弱到强对齐”方法,利用每一代模型创造更高质量的合成数据,以训练下一代模型。
Nemotron-4 340B奖励模型也表现非凡,在RewardBench排行榜上名列前茅。它通过预测多个细致入微的属性(如有用性、连贯性和冗长性)上的奖励,捕捉了详细的质量评分,这些评分推动了指令模型的优化。
基准评估充分证明了Nemotron-4模型的卓越能力。基础模型与领先的开放模型不分伯仲,指令模型在遵循复杂指令和进行连贯对话方面表现出色,而奖励模型甚至超越了一些知名的专有系统。人类评估也进一步验证了这些模型的强大性能。