MoE效能革命:从美团、蚂蚁最新开源模型谈起
国内AI大模型领域迎来效能革命,美团和蚂蚁集团相继开源基于MoE架构的大语言模型。美团LongCat通过创新设计实现高效能,聚焦智能体能力;蚂蚁Ring-flash攻克MoE与强化学习结合难题。两家企业的开源行动标志着AI大模型竞争转向效能比优化,MoE架构成为平衡能力与成本的最优解。这一趋势为开发者带来新机遇,可通过统一接入平台便捷应用前沿模型,推动AI技术普惠化发展。
2025年9月,国内AI大模型领域迎来了一场技术风暴。美团与蚂蚁集团,两家科技巨头相继开源了其最新的、基于混合专家(MoE)架构的大语言模型——LongCat-Flash-Thinking与Ring-flash-2.0。这一系列动作,不仅在开源社区引发了热烈讨论,更清晰地标志着,AI大模型的竞争焦点,已从过去单纯追求万亿参数的“规模竞赛”,全面转向了对“效能比”的极致追求。
这场由MoE架构驱动的效能革命,正在深刻地改变着AI技术的应用范式和商业前景。
美团LongCat的技术路径:极致效率与Agent能力
美团于9月22日正式开源的LongCat-Flash-Thinking,是一个总参数量高达5600亿的庞大模型。然而,其设计的精妙之处在于,通过“零计算专家”等创新设计,模型在处理任务时,动态激活的参数量仅在186亿至313亿之间。这意味着,它用远小于整体规模的计算量,实现了顶尖的性能表现。
这种高效能的背后,是美团自研的DORA异步弹性共卡训练系统。据其技术报告,该系统实现了相较于同步强化学习(RL)训练框架3倍以上的加速,在30天内即完成了超过20万亿tokens的训练。在推理端,其速度超过100 Tokens Per Second (TPS),而每百万输出tokens的成本仅为**$0.70**,实现了速度与经济性的高度统一。
更重要的是,LongCat将这种高效能,聚焦于了下一代AI的核心能力——智能体(Agent)。通过其创新的“双路径推理框架”,模型能够自主筛选最优查询样本,并将智能体推理与代码执行器等外部工具相结合。在权威的Agent工具调用基准测试τ²-Bench中,LongCat以74.0分刷新了开源模型的SOTA(State-of-the-Art,即当前最佳水平)成绩,展现了其在理解复杂指令、并调用工具完成多步骤任务方面的强大能力。
蚂蚁Ring-flash的训练突破:攻克MoE与RL结合的世界级难题
紧随其后,蚂蚁百灵大模型团队于9月19日开源的Ring-flash-2.0,则从另一个关键维度,推动了MoE架构的边界。它专注于攻克一个世界级的技术难题:如何在长思维链(Long-CoT)场景下,对MoE模型进行稳定、高效的强化学习(RL)训练。
MoE模型虽然高效,但在RL训练中,由于其稀疏激活的特性,很容易出现梯度回传不稳定,导致训练在数百步后就“奖励崩溃”或梯度爆炸。蚂蚁团队独创的“icepop”算法,通过一种巧妙的“双向截断+掩码修正”机制,阻止了训推差异过大的token回传无效梯度,成功实现了MoE模型在长思维链RL任务上的持续稳定训练。
在效能方面,Ring-flash-2.0同样出色。其总参数量为1000亿,但激活参数量仅为61亿,却能撬动约400亿参数稠密模型的性能。在硬件部署上,仅需4张H20 GPU即可实现超过200 token/s的吞吐量。
MoE架构的胜利与开发者的选择
美团与蚂蚁的开源力作,共同指向了一个清晰的行业趋势:混合专家(MoE)架构,已成为实现大模型能力与成本效益平衡的最优解。
对于广大开发者和企业而言,这一趋势带来了前所未有的机遇。然而,层出不穷的先进MoE模型,也带来了新的选择难题。除了LongCat和Ring-flash,市场上还有像DeepSeek V3.1、Qwen3-Coder、GLM-4.5等众多优秀的MoE模型,它们各有所长,适用于不同的应用场景。
要快速跟进并应用这些前沿模型,一个便捷、统一的接入平台至关重要。例如,通过七牛云AI大模型推理服务这样的平台,开发者可以省去为每个模型单独部署、配置和适配API的繁琐工作。这类平台通常会快速跟进业界的最新开源成果,并提供统一的API接口。开发者可以在一个地方,便捷地测试、对比和集成各种最先进的MoE模型,从而将主要精力聚焦于上层的应用创新。
美团和蚂蚁在2025年9月的接连开源,不仅是为社区贡献了两个强大的AI模型,更是吹响了AI“效能革命”的号角。这场革命的核心,是以MoE架构为代表的先进技术,让AI的能力不再是少数巨头的“专利”,而是正在成为广大开发者触手可及的、兼具高性能与经济性的强大生产力工具。
更多推荐
所有评论(0)