Inception Labs推出首款扩散式大型语言模型Mercury Coder

2025年02月28日 由 daydream 发表 3894 0

近日,由斯坦福大学教授Stefano Ermon创立的初创公司Inception Labs发布了其首款产品——Mercury Coder,这是一款基于扩散机制的大型语言模型(dLLM)。与传统的大型语言模型不同,Mercury Coder不采用逐词生成文本的方式,而是利用扩散方法同时处理整个文本序列,这一方法类似于AI在图像和视频生成中的应用。


微信截图_20250228092450


Mercury Coder采用了一种从粗到细的生成策略。它首先生成文本的粗略估计,然后并行地进行细化,这与Midjourney和OpenAI的Sora等AI图像和视频生成器的工作原理相似。这种创新的方法使得Mercury Coder在速度上有了显著提升,据称在NVIDIA H100 GPU上,其生成速度可达传统语言模型的10倍,每秒能生成超过1000个词汇。


在性能方面,早期的基准测试显示,Mercury Coder与GPT-4o Mini和Claude 3.5 Haiku等领先模型相比毫不逊色,甚至在某些情况下表现更优。同时,它的运行成本也相对较低,这对于寻求优化AI基础设施的企业来说是一个有吸引力的选择。


AI研究者Andrej Karpathy对Mercury Coder的扩散方法表示了兴趣,他认为这种方法打破了文本生成领域的常规,并指出文本生成领域之前一直未采用扩散方法,而图像和视频生成领域却已广泛应用。这款新模型可能会揭示AI文本生成的新优势和局限性。


目前,Inception Labs提供Mercury Coder的API访问和本地部署选项,并已与多家世界500强企业合作,帮助企业降低AI延迟和成本。此外,该公司还暗示未来将推出更多针对对话式AI优化的dLLM模型。


至于扩散式大型语言模型是否能成为传统模型的强劲竞争对手,尚需时间验证。但Inception Labs通过Mercury Coder展示了,AI文本生成并不受限于当前主流模型的顺序架构。

文章来源:https://www.maginative.com/article/inception-labs-launches-mercury-the-first-commercial-diffusion-based-language-model/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消