AI2发布开源模型OLMoE,降低推理成本

2024年09月11日 由 daydream 发表 129 0

Allen Institute for AI(AI2)与Contextual AI合作发布了一款新的开源模型OLMoE。该模型采用稀疏专家混合(MoE)架构,拥有70亿参数,但在处理每个输入标记时只使用了10亿参数。OLMoE有两个版本:通用的OLMoE-1B-7B和用于指令调优的OLMoE-1B-7B-Instruct。


微信截图_20240911101805


AI2强调,OLMoE完全开源,这与其他大多数仅提供模型权重而未公开训练数据、代码或方法的MoE模型不同。这种缺乏开放资源的情况阻碍了成本效益高的开放MoE模型的发展,使得大多数MoE模型对于许多学术界和其他研究人员来说难以触及。


AI2的研究科学家Nathan Lambert在X(原Twitter)上表示,OLMoE将有助于政策制定,并可作为学术H100集群上线的起点。


OLMoE基于AI2先前的开源模型OLMO 1.7-7B设计,支持4096个标记的上下文窗口,并且训练数据集包括Dolma 1.7。OLMoE的训练数据集结合了DCLM和Dolma的数据,其中包括Common Crawl的一个过滤子集、Dolma CC、Refined Web、StarCoder、C4、Stack Exchange、OpenWebMath、Project Gutenberg、Wikipedia等。


实验表明,OLMoE的性能与其它模型相当,但推理成本和内存存储显著降低。OLMoE在性能上超越了具有类似活跃参数的现有模型,甚至超过了像Llama2-13B-Chat和DeepSeekMoE-16B这样的大型模型。在基准测试中,OLMoE-1B-7B的表现接近于参数量为70亿或以上的其他模型如Mistral-7B、Llama 3.1-B和Gemma 2。


尽管许多AI模型开发者正在利用MoE架构构建模型,例如Mistral的Mixtral 8x22B以及X.ai的Grok模型均采用了稀疏MoE系统,但AI2和Contextual AI认为这些模型并未完全开源,也未提供训练数据或源码的信息。这导致了关于如何使用MoE模型的新设计问题,比如总参数与活跃参数的数量、是否应使用多个小专家还是少数大专家等问题尚待解决。


目前,开放源代码组织已经开始探讨AI模型的开源定义及推广。

文章来源:https://venturebeat.com/ai/ai2s-new-model-aims-to-be-open-and-powerful-yet-cost-effective/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
写评论取消
回复取消