AI2发布开源模型OLMoE，降低推理成本

2024年09月11日由 daydream 发表 239 0

Allen Institute for AI（AI2）与Contextual AI合作发布了一款新的开源模型OLMoE。该模型采用稀疏专家混合（MoE）架构，拥有70亿参数，但在处理每个输入标记时只使用了10亿参数。OLMoE有两个版本：通用的OLMoE-1B-7B和用于指令调优的OLMoE-1B-7B-Instruct。

微信截图_20240911101805

AI2强调，OLMoE完全开源，这与其他大多数仅提供模型权重而未公开训练数据、代码或方法的MoE模型不同。这种缺乏开放资源的情况阻碍了成本效益高的开放MoE模型的发展，使得大多数MoE模型对于许多学术界和其他研究人员来说难以触及。

AI2的研究科学家Nathan Lambert在X（原Twitter）上表示，OLMoE将有助于政策制定，并可作为学术H100集群上线的起点。

OLMoE基于AI2先前的开源模型OLMO 1.7-7B设计，支持4096个标记的上下文窗口，并且训练数据集包括Dolma 1.7。OLMoE的训练数据集结合了DCLM和Dolma的数据，其中包括Common Crawl的一个过滤子集、Dolma CC、Refined Web、StarCoder、C4、Stack Exchange、OpenWebMath、Project Gutenberg、Wikipedia等。

实验表明，OLMoE的性能与其它模型相当，但推理成本和内存存储显著降低。OLMoE在性能上超越了具有类似活跃参数的现有模型，甚至超过了像Llama2-13B-Chat和DeepSeekMoE-16B这样的大型模型。在基准测试中，OLMoE-1B-7B的表现接近于参数量为70亿或以上的其他模型如Mistral-7B、Llama 3.1-B和Gemma 2。

尽管许多AI模型开发者正在利用MoE架构构建模型，例如Mistral的Mixtral 8x22B以及X.ai的Grok模型均采用了稀疏MoE系统，但AI2和Contextual AI认为这些模型并未完全开源，也未提供训练数据或源码的信息。这导致了关于如何使用MoE模型的新设计问题，比如总参数与活跃参数的数量、是否应使用多个小专家还是少数大专家等问题尚待解决。

目前，开放源代码组织已经开始探讨AI模型的开源定义及推广。

文章来源：https://venturebeat.com/ai/ai2s-new-model-aims-to-be-open-and-powerful-yet-cost-effective/

标签：

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 HyperWrite推Reflection 70B：AI语言模型新突破

下一篇检索增强生成（RAG）的新突破：OP-RAG

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来