NVIDIA发布nGPT：将AI训练时间缩短了20倍

2024年10月22日由 neo 发表 413 0

近日，NVIDIA在AI模型训练领域取得了重大突破，推出了全新的Normalized Transformer（简称nGPT）架构。这一创新架构旨在优化大语言模型（LLM）的训练流程，将训练时间加速4至20倍，同时确保模型的稳定性和准确性不受影响，为AI开发者提供了前所未有的高效解决方案。

nGPT架构的核心特色在于其采用的超球面学习技术。与传统的Transformer模型相比，nGPT通过将所有关键组件映射到超球面的表面，彻底改变了数据处理的方式。这种几何设置不仅确保了模型在训练过程中各层之间的平衡，还促进了更稳定、高效的学习过程，为AI训练领域带来了革命性的变革。

nvidia-ngpt-1

据NVIDIA介绍，nGPT架构在实际测试中展现出了显著的优势。在使用OpenWebText数据集进行的实验中，nGPT在速度和效率方面均优于传统的GPT模型。对于长度为4000个标记的文本输入，nGPT仅需较少的训练轮次即可达到相似的验证损失水平，大大缩短了复杂模型的训练时间。

此外，nGPT的超球面结构还带来了更好的嵌入可分离性，使得模型能够更轻松地识别并区分不同的输入。这一特性在标准的AI测试中得到了验证，nGPT的准确性得到了显著提升。同时，nGPT的改进泛化能力也使其能够在初始训练任务之外的其他任务上表现出色，加快了收敛速度，同时保持了高精度的水平。

nvidia-ngpt_02

NVIDIA表示，nGPT架构的一个关键优势在于其将规范化和表示学习整合到一个统一的框架中。这种设计不仅简化了模型架构，还使其更易于扩展和适应更复杂的混合系统。未来，nGPT的方法有望整合到其他类型的模型和架构中，为更强大的AI系统的开发铺平道路。

此次NVIDIA发布的nGPT架构无疑为AI训练领域带来了新的曙光。随着技术的不断进步和应用场景的不断拓展，AI将在更多领域发挥重要作用。而nGPT架构的推出，将为AI开发者提供更为高效、稳定的解决方案，推动AI技术的进一步发展。

文章来源：https://dataconomy.com/2024/10/21/nvidia-ngpt-model-cuts-ai-training-time-by-20x/

标签：

英伟达

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 Meta AI或将开发WhatsApp聊天记忆功能

下一篇苹果计划本月发布新款Mac电脑，或采用线上发布方式

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来

每个人都应该知道的48个AI术语

openwebtext glue shunk031/JGLUE piqa wikitext sciq EleutherAI/lambada_openai facebook/flores

AI热点

行业学习机器学习人工智能公司板人工智能未来机器人视觉识别

AI工具

更多工具 »

火山写作

字节跳动旗下团队推出的免费AI英语写作助手

Stable Diffusion

StabilityAI推出的文本到图像生成AI

GitHub Copilot

GitHub AI编程工具

Adobe Firefly

Adobe最新推出的AI图片生成工具

文心一格

AI艺术和创意辅助平台

本周热门

热门企业

热门职位

Maluuba

20000~40000/月

Unity技术经理

Cisco

25000~30000/月深圳市

高级数据分析工程师

PilotAILabs

30000~60000/年深圳市