Mercury：首个商业扩散LLM革命性地改变AI速度

多年来，大型语言模型（LLM）领域一直被一种单一方法主导：自回归，即文本按从左到右的顺序逐个令牌生成。这一基本约束随着模型变得更加复杂而创造了速度瓶颈和效率挑战。现在，Inception Labs推出了可能具有革命性的东西：Mercury，第一个商业规模的扩散语言模型（dLLM），可能会戏剧性地重塑AI系统生成文本的方式。

这种扩散LLM打破了AI规则，但仍然有效！

打破顺序障碍

Inception Labs正式宣布Mercury为”新一代LLM，推动快速、高质量文本生成的前沿”（Inception Labs，2025）。根据Analytics India Magazine（2025），该公司采用了一种根本不同的方法。与其生成文本，Mercury使用”从粗到细”的生成过程，其中输出通过多个”去噪”步骤进行改进。

根据Inception Labs的原始公告（2025），这种方法使Mercury能够”比前沿速度优化的LLM快10倍”的速度生成文本，在标准NVIDIA H100 GPU上实现超过每秒1000个令牌。AIM Research（2025）指出，这些速度”以前只有在专门推理平台上托管的模型才能匹配——例如，在Cerebras上运行的Mistral的Le Chat。“

扩散如何改变游戏规则

Mercury背后的关键创新在于其并行处理能力。Inception Labs（2025）解释了这个过程：

“当被提示查询时，不是一次生成一个令牌的答案，而是以从粗到细的方式生成答案…改进由神经网络建议——在我们的例子中是Transformer模型——它在大量数据上训练，以通过并行修改多个令牌来全局改进答案的质量。“

这代表了与传统LLM顺序限制的根本性突破。Analytics India Magazine（2025）引用了前OpenAI研究员Andrej Karpathy对此差异的看法：

“扩散是不同的——它不是从左到右，而是一次性完成。您从噪声开始，逐渐去噪成令牌流。“

Mercury Coder：速度与质量的结合

Mercury家族中第一个公开可用的模型是Mercury Coder，它专门为代码生成进行了优化。Inception Labs（2025）发布的基准数据显示，Mercury Coder不仅在标准编码任务上匹配或超过了GPT-4o Mini、Gemini 2.0 Flash和Claude 3.5 Haiku等模型的性能，而且速度显著更快。

他们发布的结果显示，Mercury Coder Mini实现每秒1109个令牌，同时在标准编码基准测试中保持竞争力得分，如HumanEval（88.0）和MBPP（7.1）。相比之下，相同数据显示Claude 3.5 Haiku仅为每秒61个令牌，而GPT-4o Mini在相同硬件上仅为每秒59个令牌（Inception Labs，2025）。

由AI先驱创立

AIM Research（2025）报告称，Inception Labs不是由典型的AI企业家创立的。根据他们的报告，该公司由”斯坦福大学教授Stefano Ermon和他的同事Volodymyr Kuleshov和Aditya Grover”从斯坦福大学、UCLA和康奈尔大学等知名机构创立。

同一消息来源指出，Ermon曾假设”通过扩散模型并行生成和修改大块文本是可能的”，经过多年的研究，他的团队”在去年的一篇研究论文中取得了重大突破”（AIM Research，2025）。Inception Labs（2025）指出，他们的团队共同为直接偏好优化、Flash Attention和决策变压器等基础AI技术做出了贡献。

对AI行业的影响

扩散语言模型的出现可能产生深远影响：

降低成本：通过并行而不是顺序处理令牌，Mercury可以显著减少推理所需的计算资源。正如Inception Labs（2025）所说，他们的方法有潜力”使高质量AI解决方案真正可访问。“
新功能：Inception Labs（2025）声称他们的扩散模型在推理和输出结构化方面具有固有优势，因为它们”不限于只考虑之前的输出。“这种架构差异，他们认为，可以实现更好的错误纠正和减少幻觉。
硬件独立性：虽然像Groq这样的专用推理硬件已经因其速度优化而受到关注，但Analytics India Magazine（2025）指出，Mercury通过算法进步而不是定制芯片实现了类似的性能改进。
企业应用：根据他们的官方公告，Mercury可通过API和本地部署向企业客户提供支持，并支持模型微调以适应特定用例（Inception Labs，2025）。

未来方向

Inception Labs（2025）表示，Mercury Coder只是他们产品路线图的开始。他们报告称，专为通用聊天应用设计的模型已在封闭测试中。根据他们的公告，他们设想扩散语言模型能够实现新功能，包括：

需要广泛规划的高级应用
具有扩展推理能力，可以修复幻觉同时保持速度
可控生成，允许文本填充和格式一致性
在资源受限设备如手机和笔记本电脑上的边缘应用

亲自尝试

根据他们的公告，好奇的开发人员可以直接在Inception Labs的游乐场中测试Mercury Coder，该游乐场与Lambda Labs合作托管（Inception Labs，2025）。这提供了一个机会，亲身体验该模型在生成代码方面的速度和质量。

范式转变正在进行中？

虽然现在就宣布自回归模型时代的结束还为时过早，但Mercury代表了AI系统生成文本方式的潜在重大创新。如果扩散模型能够保持质量，同时实现Inception Labs声称的显著速度改进，我们可能正在见证语言模型新时代的开始。

Analytics India Magazine（2025）强调了Andrew Ng在社交媒体上对此发展的评论：

“Transformers一直主导LLM文本生成，逐个令牌生成。这是对扩散模型作为替代方案的酷尝试，通过使用从粗到细的过程一次性生成整个文本。“

无论Mercury是否能实现其革命LLM的承诺，早期结果都表明扩散模型值得认真关注，作为可能取代多年来主导该领域的自回归方法的潜在继任者。

资料来源：

Inception Labs. (2025). 推出Mercury，第一个商业规模的扩散大型语言模型。https://www.inceptionlabs.ai/news
Analytics India Magazine. (2025). “首个商业规模”的扩散LLM Mercury在NVIDIA H100上提供超过1000令牌/秒。https://analyticsindiamag.com/ai-features/the-first-commercial-scale-diffusion-llm-mercury-offers-over-1000-tokens-sec-on-nvidia-h10/
AIM Research. (2025). 扩散模型进入大型语言竞技场，Inception Labs推出Mercury。https://aimresearch.co/ai-startups/diffusion-models-enter-the-large-language-arena-as-inception-labs-unveils-mercury