MiniMax,这家因Hailuo AI视频模型而在美国广为人知的新加坡公司,近日宣布推出并开源其MiniMax-01系列模型。这一系列模型专为处理超长文本上下文及提升AI代理开发而设计。
MiniMax-Text-01是该系列中的一款重要模型,其上下文窗口可支持高达400万个标记(tokens),这相当于一个小型图书馆的书籍量。在大型语言模型(LLM)中,上下文窗口是指模型在一次输入/输出交换中能处理的信息量,其中单词和概念被表示为数值标记,这是LLM对其训练数据的内部数学抽象。
此前,谷歌的Gemini 1.5 Pro模型以200万个标记的上下文窗口领先,而MiniMax-Text-01则将此容量翻倍。MiniMax表示,MiniMax-01能有效处理高达400万个标记,是其他主流模型容量的20至32倍,预计能支持未来一年内代理相关应用的激增,因为这些应用越来越需要扩展上下文处理能力和持续内存。
目前,这些模型已在Hugging Face和GitHub上以MiniMax自定义许可的形式提供下载,用户可以直接在Hailuo AI Chat(ChatGPT、Gemini、Claude的竞争对手)上试用,也可通过MiniMax的应用程序编程接口(API)接入,供第三方开发者将其独特应用与这些模型链接。
MiniMax为文本和多模态处理提供API,价格具有竞争力:每100万个输入标记0.2美元,每100万个输出标记1.1美元。相比之下,OpenAI的GPT-4o通过其API每100万个输入标记收费2.5美元,价格高出12.5倍。
此外,MiniMax集成了包含32个专家的混合专家(MoE)框架,以优化可扩展性。这种设计在保持关键基准测试上的竞争性能的同时,平衡了计算和内存效率。
MiniMax-01的核心是闪电注意力(Lightning Attention)机制,这是一种创新的变压器架构替代方案。该设计显著降低了计算复杂性,模型包含456亿个参数,每次推理激活459亿个。闪电注意力结合了线性和传统SoftMax层,为长输入实现了近线性复杂性。
MiniMax重建了其训练和推理框架,以支持闪电注意力架构,关键改进包括:MoE全对全通信优化,减少了GPU间通信开销;变长环形注意力,最小化了长序列处理的计算浪费;高效内核实现,定制的CUDA内核提高了闪电注意力的性能。这些进步使MiniMax-01模型在实际应用中更具可行性,同时保持了成本效益。
在主流文本和多模态基准测试中,MiniMax-01与GPT-4和Claude-3.5等顶级模型相媲美,特别是在长上下文评估中表现出色。MiniMax-Text-01在400万个标记上下文的“针入草堆”任务中实现了100%的准确率,且随着输入长度的增加,性能下降微乎其微。
MiniMax计划定期更新以扩展模型功能,包括代码和多模态增强。公司将开源视为构建不断演变的AI代理领域基础能力的一步。随着2025年被预测为AI代理的变革之年,对持续内存和高效代理间通信的需求正在增加,MiniMax的创新旨在应对这些挑战。
MiniMax邀请开发人员和研究人员探索MiniMax-01的功能,并欢迎技术建议和合作查询。凭借其成本效益高且可扩展的AI承诺,MiniMax在塑造AI代理时代方面发挥着关键作用。MiniMax-01系列为开发人员提供了推动长上下文AI能力边界的激动人心的机会。