Allen Institute for AI(AI2)与Contextual AI合作发布了一款新的开源模型OLMoE。该模型采用稀疏专家混合(MoE)架构,拥有70亿参数,但在处理每个输入标记时只使用了10亿参数。OLMoE有两个版本:通用的OLMoE-1B-7B和用于指令调优的OLMoE-1B-7B-Instruct。
AI2强调,OLMoE完全开源,这与其他大多数仅提供模型权重而未公开训练数据、代码或方法的MoE模型不同。这种缺乏开放资源的情况阻碍了成本效益高的开放MoE模型的发展,使得大多数MoE模型对于许多学术界和其他研究人员来说难以触及。
AI2的研究科学家Nathan Lambert在X(原Twitter)上表示,OLMoE将有助于政策制定,并可作为学术H100集群上线的起点。
OLMoE基于AI2先前的开源模型OLMO 1.7-7B设计,支持4096个标记的上下文窗口,并且训练数据集包括Dolma 1.7。OLMoE的训练数据集结合了DCLM和Dolma的数据,其中包括Common Crawl的一个过滤子集、Dolma CC、Refined Web、StarCoder、C4、Stack Exchange、OpenWebMath、Project Gutenberg、Wikipedia等。
实验表明,OLMoE的性能与其它模型相当,但推理成本和内存存储显著降低。OLMoE在性能上超越了具有类似活跃参数的现有模型,甚至超过了像Llama2-13B-Chat和DeepSeekMoE-16B这样的大型模型。在基准测试中,OLMoE-1B-7B的表现接近于参数量为70亿或以上的其他模型如Mistral-7B、Llama 3.1-B和Gemma 2。
尽管许多AI模型开发者正在利用MoE架构构建模型,例如Mistral的Mixtral 8x22B以及X.ai的Grok模型均采用了稀疏MoE系统,但AI2和Contextual AI认为这些模型并未完全开源,也未提供训练数据或源码的信息。这导致了关于如何使用MoE模型的新设计问题,比如总参数与活跃参数的数量、是否应使用多个小专家还是少数大专家等问题尚待解决。
目前,开放源代码组织已经开始探讨AI模型的开源定义及推广。