2024年1月16日,MiniMax推出了国内首款MoE(混合专家模型)大语言模型abab6。这款模型采用了MoE的结构,拥有了海量的参数,能够应对复杂的任务,同时也提高了模型的训练效率和数据利用率。abab6在一些更高难度、更细致要求的场景中,也比abab5.5有了明显的改进。
上个月,MiniMax的副总裁魏伟在数字中国论坛成立大会暨数字化发展论坛的一个分论坛上透露,他们即将发布国内第一个基于MoE架构的大模型,与OpenAI GPT-4相媲美。经过半个月的部分客户内测和反馈,abab6正式上线。
MoE(混合专家模型)是什么?
混合专家模型是一种集成学习的方法,它把一个问题分成多个子任务,然后为每个子任务训练一组专家。模型的参数也被分成多个“专家”,每次推理的时候,只有部分专家参与计算。这样,abab6就具备了大参数的优势,能够处理复杂的任务;同时,也提升了模型的计算效率,能够在单位时间内训练更多的数据。
2023年4月,MiniMax发布了开放平台。2023年6月,开始研发MoE(混合专家模型)模型。目前,大部分的大语言模型开源和学术项目都没有采用MoE架构。为了训练abab6,MiniMax自主开发了高效的MoE训练和推理框架,并且创造了一些MoE模型的训练技巧。截至目前,abab6是国内第一个超过千亿参数的MoE大语言模型。