Mercury:首个商业扩散LLM革命性地改变AI速度

Mercury:首个商业扩散LLM革命性地改变AI速度

深入了解Inception Labs的Mercury如何通过扩散架构彻底改变语言模型,实现超过每秒100个令牌的前所未有的速度。

作者: Joshua Kaufmann & AI

AI 语言模型 扩散模型 LLM

多年来,大型语言模型(LLM)领域一直被一种单一方法主导:自回归,即文本按从左到右的顺序逐个令牌生成。这一基本约束随着模型变得更加复杂而创造了速度瓶颈和效率挑战。现在,Inception Labs推出了可能具有革命性的东西:Mercury,第一个商业规模的扩散语言模型(dLLM),可能会戏剧性地重塑AI系统生成文本的方式。

这种扩散LLM打破了AI规则,但仍然有效!

打破顺序障碍

Inception Labs正式宣布Mercury为”新一代LLM,推动快速、高质量文本生成的前沿”(Inception Labs,2025)。根据Analytics India Magazine(2025),该公司采用了一种根本不同的方法。与其生成文本,Mercury使用”从粗到细”的生成过程,其中输出通过多个”去噪”步骤进行改进。

根据Inception Labs的原始公告(2025),这种方法使Mercury能够”比前沿速度优化的LLM快10倍”的速度生成文本,在标准NVIDIA H100 GPU上实现超过每秒1000个令牌。AIM Research(2025)指出,这些速度”以前只有在专门推理平台上托管的模型才能匹配——例如,在Cerebras上运行的Mistral的Le Chat。“

扩散如何改变游戏规则

Mercury背后的关键创新在于其并行处理能力。Inception Labs(2025)解释了这个过程:

“当被提示查询时,不是一次生成一个令牌的答案,而是以从粗到细的方式生成答案…改进由神经网络建议——在我们的例子中是Transformer模型——它在大量数据上训练,以通过并行修改多个令牌来全局改进答案的质量。“

这代表了与传统LLM顺序限制的根本性突破。Analytics India Magazine(2025)引用了前OpenAI研究员Andrej Karpathy对此差异的看法:

“扩散是不同的——它不是从左到右,而是一次性完成。您从噪声开始,逐渐去噪成令牌流。“

Mercury Coder:速度与质量的结合

Mercury家族中第一个公开可用的模型是Mercury Coder,它专门为代码生成进行了优化。Inception Labs(2025)发布的基准数据显示,Mercury Coder不仅在标准编码任务上匹配或超过了GPT-4o Mini、Gemini 2.0 Flash和Claude 3.5 Haiku等模型的性能,而且速度显著更快。

他们发布的结果显示,Mercury Coder Mini实现每秒1109个令牌,同时在标准编码基准测试中保持竞争力得分,如HumanEval(88.0)和MBPP(7.1)。相比之下,相同数据显示Claude 3.5 Haiku仅为每秒61个令牌,而GPT-4o Mini在相同硬件上仅为每秒59个令牌(Inception Labs,2025)。

由AI先驱创立

AIM Research(2025)报告称,Inception Labs不是由典型的AI企业家创立的。根据他们的报告,该公司由”斯坦福大学教授Stefano Ermon和他的同事Volodymyr Kuleshov和Aditya Grover”从斯坦福大学、UCLA和康奈尔大学等知名机构创立。

同一消息来源指出,Ermon曾假设”通过扩散模型并行生成和修改大块文本是可能的”,经过多年的研究,他的团队”在去年的一篇研究论文中取得了重大突破”(AIM Research,2025)。Inception Labs(2025)指出,他们的团队共同为直接偏好优化、Flash Attention和决策变压器等基础AI技术做出了贡献。

对AI行业的影响

扩散语言模型的出现可能产生深远影响:

  1. 降低成本:通过并行而不是顺序处理令牌,Mercury可以显著减少推理所需的计算资源。正如Inception Labs(2025)所说,他们的方法有潜力”使高质量AI解决方案真正可访问。“

  2. 新功能:Inception Labs(2025)声称他们的扩散模型在推理和输出结构化方面具有固有优势,因为它们”不限于只考虑之前的输出。“这种架构差异,他们认为,可以实现更好的错误纠正和减少幻觉。

  3. 硬件独立性:虽然像Groq这样的专用推理硬件已经因其速度优化而受到关注,但Analytics India Magazine(2025)指出,Mercury通过算法进步而不是定制芯片实现了类似的性能改进。

  4. 企业应用:根据他们的官方公告,Mercury可通过API和本地部署向企业客户提供支持,并支持模型微调以适应特定用例(Inception Labs,2025)。

未来方向

Inception Labs(2025)表示,Mercury Coder只是他们产品路线图的开始。他们报告称,专为通用聊天应用设计的模型已在封闭测试中。根据他们的公告,他们设想扩散语言模型能够实现新功能,包括:

  • 需要广泛规划的高级应用
  • 具有扩展推理能力,可以修复幻觉同时保持速度
  • 可控生成,允许文本填充和格式一致性
  • 在资源受限设备如手机和笔记本电脑上的边缘应用

亲自尝试

根据他们的公告,好奇的开发人员可以直接在Inception Labs的游乐场中测试Mercury Coder,该游乐场与Lambda Labs合作托管(Inception Labs,2025)。这提供了一个机会,亲身体验该模型在生成代码方面的速度和质量。

范式转变正在进行中?

虽然现在就宣布自回归模型时代的结束还为时过早,但Mercury代表了AI系统生成文本方式的潜在重大创新。如果扩散模型能够保持质量,同时实现Inception Labs声称的显著速度改进,我们可能正在见证语言模型新时代的开始。

Analytics India Magazine(2025)强调了Andrew Ng在社交媒体上对此发展的评论:

“Transformers一直主导LLM文本生成,逐个令牌生成。这是对扩散模型作为替代方案的酷尝试,通过使用从粗到细的过程一次性生成整个文本。“

无论Mercury是否能实现其革命LLM的承诺,早期结果都表明扩散模型值得认真关注,作为可能取代多年来主导该领域的自回归方法的潜在继任者。

资料来源:

对这些解决方案有疑问吗?

无论您是对实施细节感到好奇,还是想了解这些方法如何在您的环境中发挥作用,我很乐意提供帮助。