Mistral推出创新AI模型:Mathstral和Codestral Mamba

2024年07月17日 由 daydream 发表 206 0

法国知名AI初创企业Mistral,以其强大的开源AI模型技术闻名业界,并凭借雄厚的资金实力,近日在其持续扩展的大型语言模型(LLM)系列中,隆重推出了两款创新产品:一款聚焦于数学领域的模型,以及一款基于前沿Mamba架构、专为程序员和开发者量身打造的代码生成模型。


微信截图_20240717105852


Mamba架构旨在革新传统Transformer模型,通过优化注意力机制,显著提升处理效率。与市面上多数基于Transformer的模型相比,Mamba架构模型展现出更快的推理速度和更长的上下文处理能力。这一创新已吸引包括AI21在内的多家企业和开发者跟进,推出了基于Mamba的新AI模型。


Mistral紧跟潮流,推出了Codestral Mamba 7B模型,该模型巧妙融合了Mamba架构,即使在处理超长输入文本时,也能保证快速响应。Codestral Mamba尤其擅长提升代码生产力,尤其适用于本地编码项目,为开发者带来前所未有的便捷体验。该模型已在Mistral的la Plateforme API上免费开放,支持高达256,000个令牌的输入,处理能力是OpenAI GPT-4的两倍有余。


在基准测试中,Codestral Mamba表现出色,超越了CodeLlama 7B、CodeGemma-1.17B及DeepSeek等开源竞争对手,在HumanEval测试中取得了优异成绩。开发者不仅可以通过GitHub和HuggingFace平台轻松获取、修改及部署该模型,而且它遵循开源的Apache 2.0许可证,进一步促进了技术的共享与进步。



微信截图_20240717105918

此外,Mistral还推出了Mathstral 7B模型,专为数学推理和科学探索设计。这款模型与Project Numina携手打造,拥有32K的广阔上下文窗口,并在数学推理领域展现出卓越性能,远超同类模型。在需要更多推理时间计算的测试中,Mathstral更是取得了“显著更优”的成果。用户既可直接使用,也可根据需求对模型进行微调。


微信截图_20240717105935


Mistral在官方博客中强调:“Mathstral是我们在打造专用模型时,实现卓越性能与速度平衡的又一例证,也是我们积极推广的la Plateforme平台新发展理念的具体体现,特别是其新增的微调功能。”


Mathstral同样采用Apache 2.0开源许可证,用户可通过Mistral的la Plateforme和HuggingFace平台轻松访问。


Mistral始终致力于在开源平台上分享其模型成果,与OpenAI、Anthropic等AI领域的佼佼者展开激烈竞争。近期,该公司成功完成了6.4亿美元的B轮融资,估值飙升至近60亿美元,并获得了微软、IBM等科技巨头的青睐与投资。

文章来源:https://venturebeat.com/ai/mistral-releases-codestral-mamba-for-faster-longer-code-generation/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
写评论取消
回复取消