高质量数据短缺与算力消耗激增的背景下,大模型呼叫技术正从单一模型响应向复杂Agent系统跃迁。

2025年世界人工智能大会上,商汤科技首席科学家林达华指出:“大模型的技术发展到今天,可以说在繁花似锦的背后,也进入了一个十字路口。”这个十字路口体现为技术路径上的多重分化,从预训练与强化学习的选择,到开源与闭源的权衡,核心都围绕着一个主题:如何让大模型更高效、可靠地响应人类指令与现实任务需求。


01 技术架构演进:从Transformer到多元创新

大模型呼叫技术的根基在于模型架构本身。当前主流架构正从传统Transformer向更高效的方向演进。

DeepSeek V3采用的多头潜在注意力机制(MLA)与混合专家模型(MoE)结合,在6710亿总参数中仅激活370亿参数进行推理,实现了性能与效率的平衡。MLA通过将键值张量压缩至低维空间优化KV缓存内存使用,相比传统的分组查询注意力(GQA),在建模性能上更有优势。

MoE架构通过稀疏激活机制,将前馈网络替换为多个专家层,每个token仅路由到少量专家进行处理。这种设计显著提升了模型容量而不相应增加计算开销。如Meta的Llama 4 Maverick采用400B总参数、17B活跃参数的MoE设计,在保持高推理速度的同时媲美密集模型的性能。

架构创新的另一前沿是状态空间模型(SSM)等非Transformer路径。RWKV融合RNN与Transformer优势,在语言建模任务中实现等效性能下7倍推理加速。这类架构特别适合长序列处理,为实时呼叫场景提供了新选择。

02 训练技术革新:强化学习与自我对弈

大模型呼叫能力提升的核心瓶颈已从预训练转向后期优化。阶跃星辰首席科学家张祥雨指出:“预训练的本质是‘行为克隆’,其固有缺陷无法用扩大数据或模型的方式解决。强化学习则让模型拥有了带反思的思维链。”

强化学习通过自然语言反馈和测试时训练(Test-Time Training),使模型能像人类一样在真实世界中自主探索。今年WAIC大会上展示的Step3模型利用强化学习显著提升推理能力,在国产芯片上实现32K上下文推理效率最高达DeepSeek R1的300%。

Meta提出的语言自我对弈(LSP)框架代表了另一突破性进展。LSP让同一模型扮演“挑战者”和“求解者”两个角色,通过自我对抗持续提升。实验显示,仅通过自我对弈,Llama-3.2-3B-Instruct在指令跟随任务中的表现能超越数据驱动的基线模型。

这种训练范式变革的核心是减少对高质量标注数据的依赖。LSP引入的组相对策略优化(GRPO)和KL散度正则化技术,确保了自我对弈过程的稳定性和有效性。

03 推理优化技术:效率与成本的平衡

大模型呼叫的实时性要求推理过程必须高效。美团LongCat团队设计的“双路径推理框架”能自主筛选最优查询样本,将智能体推理与工具使用相结合。

基于AIME25实测数据,LongCat-Flash-Thinking在确保90%准确率的前提下,相较于不使用工具调用节省了64.5%的Tokens

投机解码(Speculative Decoding)是另一重要创新。DeepMind的Chinchilla模型采用小型草稿模型预测候选token,在验证阶段实现吞吐提升4.8倍。Anthropic提出的激活压缩编码(ACE)方案,将KV缓存内存占用降低72%,支持4096 token上下文窗口的实时推理。

针对边缘部署,动态稀疏训练(DST)等模型压缩技术显示出巨大潜力。PaI-2025算法在LLaMA-7B上实现70%稀疏度,下游任务性能下降不足1%,却使推理速度提升2.3倍。这让大模型在树莓派等边缘设备上的部署成为可能。

04 Agent系统:大模型呼叫的高级形态

大模型呼叫的最高级表现形式是智能体(Agent)系统。阿里云在2025云栖大会发布的ModelStudio-ADK框架,突破以预定义编排方式开发Agent的局限,可帮助企业高效开发具备自主决策、多轮反思和循环执行能力的Agent。

智能体系统根据能力可分为五个级别:从L1响应型(单轮问答)到L5自治型(长期记忆+环境交互)。当前业界主要聚焦L3-L4级别的智能体开发,即能进行多工具编排和动态规划的系统。

阿里云百炼平台集成的工具连接MCP Server、多模数据融合RAG Server、沙箱工具Sandbox Server等7大企业级能力,为复杂Agent开发提供了基础设施。网商银行基于此开发的贷款审核应用,将任务处理时间从原来的3小时优化至5分钟内,准确率超95%。

工具调用能力成为评估大模型呼叫性能的关键指标。在Tau2-Bench测试中,Qwen3-Max取得突破性的74.8分,超过Claude Opus4和DeepSeek-V3.1。这显示国内大模型在工具调用和复杂任务解决能力上已跻身世界前列。

05 开源与闭源路径的选择

大模型呼叫技术发展中,开源与闭源路径的选择成为关键战略问题。上海人工智能实验室青年科学家陈恺认为:“开源不一定能够拿出最好的模型,但开源一定能够促使大家把更多的资源合理化地调配和应用,避免重复投入。”

当前,包括阿里巴巴、智谱、月之暗面、阶跃星辰等国内主流厂商都加入了开源行列。阿里通义已开源300余个模型,覆盖不同大小的“全尺寸”及LLM、编程、图像、语音、视频等“全模态”,全球下载量突破6亿次。

英伟达全球开发者生态副总裁Neil Trevett预测,未来的状态将是开放权重、部分闭源和混合架构长期共存。企业可能采取混合架构的模式——部分组件开源构建生态,而核心模块则采用闭源以保护商业利益最大化。

这种混合模式平衡了创新协作与商业回报。对大多数企业而言,基于开源模型进行领域微调,结合闭源的核心业务逻辑,成为大模型呼叫技术落地的实用路径。

06 未来展望:融合架构与自我进化

大模型呼叫技术的未来将向融合架构与自我进化能力发展。

量子位智库报告指出,混合架构崛起是明确趋势,高效Transformer与非Transformer架构逐渐融合,形成Hybrid架构。MoE与稀疏注意力结合,兼顾性能与效率,成为大模型部署的重要选择。

自我进化能力是另一前沿方向。阿里云无影AgentBay推出的自进化引擎,展示了Agent动态调用云上算力、存储及工具链资源的潜力。这种设计大大突破了Agent在本地设备上的算力限制,为智能体的长期学习和进化提供了可能。

物理模拟与合成数据生成将解决训练数据瓶颈。英伟达的解决方案是利用基础模型Cosmos生成逼真场景,采集高精度标注数据,训练那些真实世界难以采集的极端场景。这种合成数据方法尤其适合专业领域的大模型呼叫训练。


随着架构创新与技术融合,大模型呼叫技术正从简单的问答交互向复杂任务自动化演进。美团LongCat-Flash-Thinking在形式化定理证明方面的突破,展示了模型在数学推理等高度专业化领域的潜力。

大模型呼叫技术的终极目标是实现自然、高效、可靠的人机协作。无论是阿里云的通义大模型,还是美团的LongCat,都在向着更高效的推理、更精准的工具调用、更低的计算成本方向迈进

Logo

更多推荐