Mistral公司近期对其开源编程模型Codestral进行了更新,推出了新版本Codestral 25.01。该模型在开发者群体中备受欢迎,进一步加剧了面向开发者的编程模型市场竞争。
Mistral在官方博客中表示,新版本的Codestral采用了更高效的架构。公司承诺,Codestral 25.01将在其同类模型中占据领先地位,且运行速度是前一版本的两倍。
与初代Codestral相似,Codestral 25.01针对低延迟、高频次操作进行了优化,并支持代码修正、测试生成以及中间代码填充等任务。据公司介绍,该模型对于企业用户,尤其是需要处理大量数据和模型驻留场景的企业,将更具实用性。
基准测试显示,Codestral 25.01在Python编程测试中表现更佳,HumanEval测试得分达到86.6%。同时,它还超越了前代Codestral、Codellama 70B Instruct以及DeepSeek Coder 33B instruct。
目前,这款模型可供Mistral集成开发环境(IDE)插件合作伙伴中的开发者使用。用户可通过代码助手Continue在本地部署Codestral 25.01,也可通过Mistral的la Plateforme和Google Vertex AI访问该模型的API。此外,该模型已在Azure AI Foundry上预览,并即将登陆Amazon Bedrock。
自去年5月发布首款以代码为核心的模型Codestral以来,Mistral持续推出相关产品。这款拥有220亿参数的模型能够编写80种不同语言的代码,且性能优于其他以代码为中心的模型。此后,Mistral还推出了基于Mamba架构的代码生成模型Codestral-Mamba,它能够生成更长的代码字符串并处理更多输入。
Codestral 25.01发布后,迅速引起广泛关注。在Mistral宣布更新后仅数小时,该模型便在Copilot Arena排行榜上迅速攀升。
编写代码是基础模型最早的功能之一,即使是OpenAI的GPT-3和Anthropic的Claude等通用模型也具备该功能。然而,在过去一年中,专注于编程的模型得到了改进,并经常在性能上超越大型模型。
仅在过去一年里,就有多个专注于编程的模型面向开发者推出。阿里巴巴于去年11月发布了Qwen2.5-Coder,而中国的DeepSeek Coder则在6月成为首个击败GPT-4 Turbo的模型。微软也推出了GRIN-MoE,这是一款基于混合专家(MOE)的模型,能够编写代码并解决数学问题。
关于选择学习所有内容的通用模型还是专注于编程的模型,这一争议至今仍未平息。部分开发者更倾向于Claude等模型提供的广泛选项,但编程模型的激增也显示出对专业性的需求。由于Codestral针对编程数据进行训练,因此在编程任务上的表现自然更佳,而非撰写电子邮件等任务。