Mercury:首个商业扩散LLM革命性地改变AI速度
深入了解Inception Labs的Mercury如何通过扩散架构彻底改变语言模型,实现超过每秒100个令牌的前所未有的速度。
作者: Joshua Kaufmann & AI
•多年来,大型语言模型(LLM)领域一直被一种单一方法主导:自回归,即文本按从左到右的顺序逐个令牌生成。这一基本约束随着模型变得更加复杂而创造了速度瓶颈和效率挑战。现在,Inception Labs推出了可能具有革命性的东西:Mercury,第一个商业规模的扩散语言模型(dLLM),可能会戏剧性地重塑AI系统生成文本的方式。
这种扩散LLM打破了AI规则,但仍然有效!
打破顺序障碍
Inception Labs正式宣布Mercury为”新一代LLM,推动快速、高质量文本生成的前沿”(Inception Labs,2025)。根据Analytics India Magazine(2025),该公司采用了一种根本不同的方法。与其生成文本,Mercury使用”从粗到细”的生成过程,其中输出通过多个”去噪”步骤进行改进。
根据Inception Labs的原始公告(2025),这种方法使Mercury能够”比前沿速度优化的LLM快10倍”的速度生成文本,在标准NVIDIA H100 GPU上实现超过每秒1000个令牌。AIM Research(2025)指出,这些速度”以前只有在专门推理平台上托管的模型才能匹配——例如,在Cerebras上运行的Mistral的Le Chat。“
扩散如何改变游戏规则
Mercury背后的关键创新在于其并行处理能力。Inception Labs(2025)解释了这个过程:
“当被提示查询时,不是一次生成一个令牌的答案,而是以从粗到细的方式生成答案…改进由神经网络建议——在我们的例子中是Transformer模型——它在大量数据上训练,以通过并行修改多个令牌来全局改进答案的质量。“
这代表了与传统LLM顺序限制的根本性突破。Analytics India Magazine(2025)引用了前OpenAI研究员Andrej Karpathy对此差异的看法:
“扩散是不同的——它不是从左到右,而是一次性完成。您从噪声开始,逐渐去噪成令牌流。“
Mercury Coder:速度与质量的结合
Mercury家族中第一个公开可用的模型是Mercury Coder,它专门为代码生成进行了优化。Inception Labs(2025)发布的基准数据显示,Mercury Coder不仅在标准编码任务上匹配或超过了GPT-4o Mini、Gemini 2.0 Flash和Claude 3.5 Haiku等模型的性能,而且速度显著更快。
他们发布的结果显示,Mercury Coder Mini实现每秒1109个令牌,同时在标准编码基准测试中保持竞争力得分,如HumanEval(88.0)和MBPP(7.1)。相比之下,相同数据显示Claude 3.5 Haiku仅为每秒61个令牌,而GPT-4o Mini在相同硬件上仅为每秒59个令牌(Inception Labs,2025)。
由AI先驱创立
AIM Research(2025)报告称,Inception Labs不是由典型的AI企业家创立的。根据他们的报告,该公司由”斯坦福大学教授Stefano Ermon和他的同事Volodymyr Kuleshov和Aditya Grover”从斯坦福大学、UCLA和康奈尔大学等知名机构创立。
同一消息来源指出,Ermon曾假设”通过扩散模型并行生成和修改大块文本是可能的”,经过多年的研究,他的团队”在去年的一篇研究论文中取得了重大突破”(AIM Research,2025)。Inception Labs(2025)指出,他们的团队共同为直接偏好优化、Flash Attention和决策变压器等基础AI技术做出了贡献。
对AI行业的影响
扩散语言模型的出现可能产生深远影响:
-
降低成本:通过并行而不是顺序处理令牌,Mercury可以显著减少推理所需的计算资源。正如Inception Labs(2025)所说,他们的方法有潜力”使高质量AI解决方案真正可访问。“
-
新功能:Inception Labs(2025)声称他们的扩散模型在推理和输出结构化方面具有固有优势,因为它们”不限于只考虑之前的输出。“这种架构差异,他们认为,可以实现更好的错误纠正和减少幻觉。
-
硬件独立性:虽然像Groq这样的专用推理硬件已经因其速度优化而受到关注,但Analytics India Magazine(2025)指出,Mercury通过算法进步而不是定制芯片实现了类似的性能改进。
-
企业应用:根据他们的官方公告,Mercury可通过API和本地部署向企业客户提供支持,并支持模型微调以适应特定用例(Inception Labs,2025)。
未来方向
Inception Labs(2025)表示,Mercury Coder只是他们产品路线图的开始。他们报告称,专为通用聊天应用设计的模型已在封闭测试中。根据他们的公告,他们设想扩散语言模型能够实现新功能,包括:
- 需要广泛规划的高级应用
- 具有扩展推理能力,可以修复幻觉同时保持速度
- 可控生成,允许文本填充和格式一致性
- 在资源受限设备如手机和笔记本电脑上的边缘应用
亲自尝试
根据他们的公告,好奇的开发人员可以直接在Inception Labs的游乐场中测试Mercury Coder,该游乐场与Lambda Labs合作托管(Inception Labs,2025)。这提供了一个机会,亲身体验该模型在生成代码方面的速度和质量。
范式转变正在进行中?
虽然现在就宣布自回归模型时代的结束还为时过早,但Mercury代表了AI系统生成文本方式的潜在重大创新。如果扩散模型能够保持质量,同时实现Inception Labs声称的显著速度改进,我们可能正在见证语言模型新时代的开始。
Analytics India Magazine(2025)强调了Andrew Ng在社交媒体上对此发展的评论:
“Transformers一直主导LLM文本生成,逐个令牌生成。这是对扩散模型作为替代方案的酷尝试,通过使用从粗到细的过程一次性生成整个文本。“
无论Mercury是否能实现其革命LLM的承诺,早期结果都表明扩散模型值得认真关注,作为可能取代多年来主导该领域的自回归方法的潜在继任者。
资料来源:
- Inception Labs. (2025). 推出Mercury,第一个商业规模的扩散大型语言模型。https://www.inceptionlabs.ai/news
- Analytics India Magazine. (2025). “首个商业规模”的扩散LLM Mercury在NVIDIA H100上提供超过1000令牌/秒。https://analyticsindiamag.com/ai-features/the-first-commercial-scale-diffusion-llm-mercury-offers-over-1000-tokens-sec-on-nvidia-h10/
- AIM Research. (2025). 扩散模型进入大型语言竞技场,Inception Labs推出Mercury。https://aimresearch.co/ai-startups/diffusion-models-enter-the-large-language-arena-as-inception-labs-unveils-mercury