Inception Labs推出首款扩散式大型语言模型Mercury Coder

2025年02月28日由 daydream 发表 4097 0

近日，由斯坦福大学教授Stefano Ermon创立的初创公司Inception Labs发布了其首款产品——Mercury Coder，这是一款基于扩散机制的大型语言模型（dLLM）。与传统的大型语言模型不同，Mercury Coder不采用逐词生成文本的方式，而是利用扩散方法同时处理整个文本序列，这一方法类似于AI在图像和视频生成中的应用。

微信截图_20250228092450

Mercury Coder采用了一种从粗到细的生成策略。它首先生成文本的粗略估计，然后并行地进行细化，这与Midjourney和OpenAI的Sora等AI图像和视频生成器的工作原理相似。这种创新的方法使得Mercury Coder在速度上有了显著提升，据称在NVIDIA H100 GPU上，其生成速度可达传统语言模型的10倍，每秒能生成超过1000个词汇。

在性能方面，早期的基准测试显示，Mercury Coder与GPT-4o Mini和Claude 3.5 Haiku等领先模型相比毫不逊色，甚至在某些情况下表现更优。同时，它的运行成本也相对较低，这对于寻求优化AI基础设施的企业来说是一个有吸引力的选择。

AI研究者Andrej Karpathy对Mercury Coder的扩散方法表示了兴趣，他认为这种方法打破了文本生成领域的常规，并指出文本生成领域之前一直未采用扩散方法，而图像和视频生成领域却已广泛应用。这款新模型可能会揭示AI文本生成的新优势和局限性。

目前，Inception Labs提供Mercury Coder的API访问和本地部署选项，并已与多家世界500强企业合作，帮助企业降低AI延迟和成本。此外，该公司还暗示未来将推出更多针对对话式AI优化的dLLM模型。

至于扩散式大型语言模型是否能成为传统模型的强劲竞争对手，尚需时间验证。但Inception Labs通过Mercury Coder展示了，AI文本生成并不受限于当前主流模型的顺序架构。

文章来源：https://www.maginative.com/article/inception-labs-launches-mercury-the-first-commercial-diffusion-based-language-model/

标签：

大型语言模型 Inception Labs Mercury Coder

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇微软发布新一代Phi AI模型

下一篇腾讯发布新一代快思考模型混元Turbo S

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来