Mistral AI发布新模型Mixtral 8x22B挑战行业巨头

2024年04月12日 由 daydream 发表 290 0

总部位于巴黎的开源生成式人工智能初创公司Mistral AI最近发布了一款新的大型语言模型,旨在与业界巨头一较高下。


微信截图_20240412100842


这款名为Mixtral 8x22B的新模型,预计性能将超过公司先前的Mixtral 8x7B模型,并有望成为OpenAI的GPT-3.5和Meta Platforms Inc.的Llama 2等知名竞争对手的有力挑战者。


去年12月,这家初创公司成功筹集了4.15亿美元资金,估值突破20亿美元。据公司介绍,新模型Mixtral 8x22B是目前最为强大的模型,它拥有一个65000令牌的上下文窗口,能够同时处理和引用的文本量相当可观。此外,Mixtral 8x22B的参数规模达到了惊人的1760亿,意味着它内部用于决策和预测的变量数量极为庞大。


Mistral AI由谷歌和Meta的AI研究人员共同创立,是致力于构建开源模型的AI初创公司之一。这家公司采取了独特的方式,通过社交媒体平台X发布torrent链接来提供新模型。随后,Mixtral 8x22B模型也在Hugging Face和Together AI平台上开放获取,用户可以在这些平台上进行重新训练和调整,以适应更加专业化的任务需求。


就在Mistral发布Mixtral 8x22B模型不久后,其竞争对手也纷纷推出了最新模型。周二,OpenAI推出了GPT-4 Turbo with Vision,这是GPT-4 Turbo系列中具有视觉功能的最新模型,能够处理用户上传的照片、绘画等各类图像。同日稍晚,谷歌也推出了其最先进的Gemini Pro 1.5 LLM,向开发者提供免费版本,每天最多可处理50次请求。


Meta也宣布计划在本月底推出Llama 3,展现出了强烈的竞争态势。


Mixtral 8x22B预计将在性能上超越Mistral AI先前的Mixtral 8x7B模型,后者在多个关键基准测试中有望击败GPT-3.5和Llama 2。


这款新模型采用了先进的稀疏“专家混合”架构,使其能够进行高效的计算,并在各种任务中展现出高性能。稀疏MoE方法旨在通过组合不同模型,每个模型专注于不同类别的任务,从而优化性能和成本。


Mistral AI在其网站上表示:“在每一层,对于每个令牌,路由器网络会选择两个组(‘专家’)来处理令牌,并将它们的输出相加。这种技术增加了模型的参数数量,同时控制了成本和延迟,因为模型每个令牌只使用总参数集的一部分。”


由于采用了独特的架构,尽管Mixtral 8x22B规模庞大,但每次前向传递仅需约440亿个活跃参数,使其比同等规模的模型更快、更经济。


因此,Mixtral 8x22B的发布成为了开源生成式人工智能领域的重要里程碑,为研究人员、开发人员和其他爱好者提供了在不受有限访问和巨大成本等障碍限制的情况下使用先进模型的机会。该模型在宽松的Apache 2.0许可下可供使用。


人工智能社区在社交媒体上对此次发布大多持积极态度,爱好者们纷纷表示期待该模型在客户服务、药物发现和气候建模等任务中发挥重要作用。


尽管Mistral AI因其开源方法获得了广泛赞誉,但也受到了一些批评。公司的模型被称为“前沿模型”,存在一定的误用风险。此外,由于任何人都可以下载并在公司的AI模型上进行构建,这家初创公司无法防止其技术被用于有害目的。

文章来源:https://siliconangle.com/2024/04/10/mistralai-debuts-mixtral-8x22b-one-powerful-open-source-ai-models-yet/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
写评论取消
回复取消