昆仑万维开源2千亿稀疏大模型天工MoE,支持单台4090推理

2024年06月04日 由 daydream 发表 224 0

昆仑万维于2024年6月3日正式宣布,其研发的2千亿稀疏大模型Skywork-MoE全面开源。这一模型不仅凭借其卓越的性能和低廉的推理成本吸引了业界的广泛关注,更因其在大模型领域的创新实践,成为行业内的一大亮点。


微信截图_20240604103958


Skywork-MoE,作为天工3.0研发模型系列中的中档大小模型,其总参数量高达146B,而激活参数量仅为22B。这一设计意味着模型在保持高性能的同时,也具备较低的推理成本。更值得一提的是,Skywork-MoE是首个完全应用并落地MoE Upcycling技术的开源千亿参数MoE大模型,这一技术的引入使得模型能够在保证性能的同时,进一步降低训练成本。


在模型能力与技术创新方面,Skywork-MoE展现了其独特的优势。在相同激活参数量下,Skywork-MoE的能力处于行业前列,接近70B的Dense模型,但其推理成本却有近3倍的下降。这得益于昆仑万维针对MoE模型训练困难和泛化性能差的问题,设计的两种训练优化算法:Gating Logits归一化操作和自适应的Aux Loss。这些创新不仅提升了模型对top-2 Expert的置信度,也确保了在不同训练阶段Drop Token Rate维持在合适区间内,从而显著提升了整体性能和泛化水平。


在训练基础设施方面,Skywork-MoE也展现了其独特的设计思路。针对MoE模型的大规模分布式训练挑战,昆仑万维提出了两个重要的并行优化设计:Expert Data Parallel和非线性切分流水并行。这两种设计不仅提高了千卡集群上的训练吞吐量,也简化了并行方案的实现和验证过程,使得模型的训练更加高效和稳定。


此外,Skywork-MoE还在MoE Know-how方面进行了深入探索。通过一系列基于Scaling Laws的实验,昆仑万维探究了影响Upcycling和From Scratch训练MoE模型效果的各种约束因素,并提供了一个经验规则:当训练MoE模型的FLOPs是训练Dense模型的2倍以上时,选择From Scratch训练MoE会更为合适;否则,选择Upcycling可以明显减少训练成本。这一经验规则的提出,为行业内的大模型训练提供了宝贵的参考和启示。


值得一提的是,Skywork-MoE在推理方面也表现出色。作为目前能在8x4090服务器上进行推理的最大开源MoE模型,Skywork-MoE利用首创的非均匀Tensor Parallel并行推理方式,在合适的batch size内达到了2200 tokens/s的吞吐量,充分展示了其在高性能计算设备上的卓越表现。

文章来源:https://mp.weixin.qq.com/s/FCwzPohoKnSl0lW2NOdiGw
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消