2025年9月标志着AI大模型(LLMs)和智能体(Agents)技术进入了工业化部署的新阶段。本月,技术圈的关注点已从单纯的模型规模竞赛,转向解决实际应用中至关重要的三大难题:计算效率、深层认知可靠性复杂的流程编排。研究界和产业界的技术突破集中在利用LLM的推理能力来优化整个AI应用生命周期的各个阶段。
在这里插入图片描述


一、旗舰模型与企业级智能体部署

1. Anthropic发布Claude Sonnet 4.5,宣称夺得AI编码桂冠

Anthropic于9月29日宣布推出其最新的中端旗舰模型Claude Sonnet 4.5,并大胆宣称其为全球最优秀且最安全的编码和复杂软件智能体构建模型。该模型在多个关键的行业编码基准测试中展现出卓越的性能,其表现据称已超越了包括GPT-5和Google Gemini在内的竞争对手。Anthropic采取双重战略,一方面在原始编码性能上进行极致优化,另一方面则着重于安全开发者体验,以建立差异化优势。这一发布同步推出了一套新的开发者工具,旨在简化复杂Agentic工作流的构建和调试过程。业界普遍认为,Claude Sonnet 4.5的问世,将进一步加速AI在软件开发和自动化流程中的应用,尤其是在需要处理长任务和复杂逻辑的领域,获得了如Cursor等合作伙伴的高度肯定,称其在“长周期任务”上的表现有了显著改进 。[1]

2. Meta Llama模型获美国联邦政府批准,加入公共部门采购清单

Meta的Llama大语言模型于9月23日正式获得美国总务管理局(GSA)的批准,这一里程碑事件意味着联邦机构现在可以在政府合同中采购并部署Llama模型。Llama因此加入了由Anthropic、OpenAI和Google等公司组成的AI精英供应商行列,能够参与数十亿美元的政府AI采购市场。这一批准主要允许Llama模型应用于合同审查、IT支持、数据分析等官方职能。此举凸显了AI巨头在公共部门的激烈竞争,此前Anthropic和OpenAI均向联邦机构提供了大幅折扣(例如,Claude AI和ChatGPT Enterprise每年仅收取象征性的1美元),意图抢占先发优势并建立长期合作关系。尽管短期财务价值不大,但专家认为与政府建立早期关系将带来数百万美元的长期收入潜力 。[2]

3. 跨平台AI Agent工业化:Notion、C3 AI和Adobe/Box的生产级落地

9月份,AI Agent技术正式跨越了从演示到生产的临界点,多家主流企业软件公司集中发布了生产级Agentic解决方案。Notion正式推出了其首批AI Agents,为生产力平台带来了自主数据分析和自动化任务管理能力 。同时,C3 AI发布了企业级Agentic流程自动化平台,专注于复杂业务流程的编排,超越了传统聊天机器人的能力范围 。此外,Adobe在Experience Platform中推出了AI Agent,而Box也通过Box Extract和Box Automate扩展了Agentic AI功能。这些系统的核心价值在于能够自主处理复杂、多步骤的业务操作,而无需持续的人工监督。这一趋势表明,AI Agent已从早期的试点项目转变为企业核心基础设施,市场对自主系统的信任和投资正在快速增加 。[3]

二、Agentic AI与编排架构创新

4. Tree-GRPO:为LLM Agent引入树形搜索的强化学习框架

AMAP、阿里巴巴集团与学术伙伴共同开发的Tree-GRPO(Tree-based Group Relative Policy Optimization)框架,解决了LLM Agent在复杂任务中探索效率低的问题。该技术将Agent步骤级别的树形搜索集成到在线强化学习流程中,通过树形结构规划未来行动,显著减少了传统的Rollout成本。Tree-GRPO的核心在于从最终结果的奖励中提取出细粒度的过程监督信号,从而引导模型进行更有效的探索和推理。在多跳问答(Multi-hop QA)等需要复杂逻辑推理的任务中,该框架实现了高达69%的相对性能提升。这项研究提供了一种提高Agent学习效率和鼓励探索行为的机制,是Agentic AI迈向更高级自主决策的关键一步 [4]

5. Bloomberg AI证实Agent工具调用效率提高高达70%

为了提升AI Agent在生产环境中的经济可行性,对工具调用效率的优化成为技术焦点。Bloomberg AI工程师在ACL 2025会议上展示的研究结果显示,通过改进LLM Agent的工具调用方法论,系统可以显著减少完成任务所需的冗余工具调用次数。实验数据表明,在StableToolBench上,冗余调用次数最多减少了70%,而在RestBench上也减少了47%,同时保持了任务通过率。这项突破极大地降低了LLM Agent在执行多步骤任务时的API调用成本响应延迟。在Agentic AI的工业化浪潮中,这种效率提升被认为是实现大规模商业部署的基础,因为它解决了长周期、高频交互 Agent 的经济瓶颈 [5]

6. LangGraph分层记忆架构:短期状态与长期知识持久化

随着Agent任务复杂度的提升,对上下文(Context)的管理已从简单的聊天历史记录演变为分层的记忆系统。LangGraph作为先进的Agent编排框架,提供了短-长期记忆的分层管理方法。短期记忆(Short-term Memory)被管理为Agent状态的一部分,通过Checkpointer机制持久化到数据库中,负责跟踪当前的对话历史和ReAct循环中的中间状态(如工具调用产生的工件) [6] 。而长期记忆(Long-term Memory)则通过LangGraph Stores进行管理,存储跨会话的、用户特定的或应用层面的结构化知识(如用户偏好、程序规则),并可通过自定义的命名空间进行组织。这种分层架构对于实现具备个性和适应性的Agent至关重要,因为它允许Agent在不同会话中保持连贯性并积累知识

7. RAG-Fusion与互惠排序融合(RRF):提升检索鲁棒性

在高级检索增强生成(RAG)领域,为了克服单一向量检索的局限性,RAG-Fusion技术成为了焦点。RAG-Fusion的核心是通过LLM生成用户查询的多个变体(Multi-Query Generation),然后同时对这些查询执行检索。为了稳健地聚合来自不同查询和检索源(如稀疏关键词和密集向量)的结果,RAG-Fusion使用了互惠排序融合(Reciprocal Rank Fusion, RRF)算法

。RRF通过给排名靠前的文档不成比例的权重,同时平衡不同来源的排名,实现了通过冗余搜索实现鲁棒性的目标。RRF的鲁棒性使其无需复杂调优即可高效结合本质上不相关的相关性指标,大大提高了RAG系统在高难度查询场景中的召回率和精确度

[7][8]

三、推理、效率与量化突破

8. NVIDIA Run:ai与Dynamo集成实现LLM智能多节点调度

NVIDIA于9月29日宣布Run:ai v2.23版本与NVIDIA Dynamo集成,旨在解决在多GPU和多节点集群中扩展大型语言模型推理的复杂挑战。在生产环境中,LLM推理需要高吞吐量和低延迟,而跨节点通信成为瓶颈。该集成通过LLM感知的智能调度机制,如Gang Scheduling(确保所有必要组件同时启动)和Topology-Aware Placement(根据硬件拓扑优化部署位置以最小化跨节点延迟),最大限度地提高了GPU利用率。这项技术确保了在大规模、高并发Agentic系统部署下,LLM推理工作负载的性能是可预测且高效的,从而为企业级AI服务的稳定运行奠定了关键的计算基础 [9]

9. Apple Research推出Speculative Streaming:单模型推理加速

Apple Machine Learning Research公布的Speculative Streaming技术,是推理加速领域的一项重大突破。它是一种单模型推测解码方法,解决了传统推测解码依赖额外辅助模型带来的系统复杂性和参数冗余问题。Speculative Streaming通过将模型的微调目标从预测下一个Token转变为预测未来N-gram序列,实现了将草稿生成过程直接融入目标模型。这项内生优化在摘要、结构化查询等任务中实现了1.8至3.1倍的解码加速,且不牺牲生成质量 。其关键优势在于参数效率,比Medusa风格的多头架构节省约10,000倍的额外参数,使其特别适用于内存和资源受限的边缘设备部署 [10]

10. LLM推理成本的经济性拐点与持续崩塌

根据Q3的行业报告和市场分析,LLM推理的成本持续呈戏剧性下降趋势,每年的降幅在9倍到900倍之间 。这种快速的成本崩塌正在推动LLM的本地和边缘部署达到成本-性能拐点,例如Nano级板卡已达到$25/T/s的处理能力。这种经济基础的重大变化,直接决定了AI Agent的商业可行性和普及速度,使得原本因高成本而受限的多步骤、链式推理得以在隐私至上和低延迟要求的生产场景(如本地负载均衡、医疗转录)中大规模应用 [11]

11. GGUF生态系统进入“量化战争2.0”

针对本地和边缘设备部署的量化(Quantization)技术持续深化,社区将此阶段称为“量化战争2.0”

。技术焦点已从简单的静态位宽压缩转向重要性矩阵量化和自定义张量/层大小,例如流行的新格式IQ4_XS。这些精细化的改进允许模型在保持极高保真度(即最小化性能损失)的同时,大幅压缩模型体积。这一趋势反映了本地LLM部署的成熟,开发者不再满足于简单的压缩,而是要求量化策略必须与模型架构、训练流程以及特定硬件特性深度结合,以实现更高的计算效率和内存优化[12]

12. ArXiv研究聚焦ZeroQAT:高效量化感知训练

在量化领域,9月份的ArXiv研究关注了ZeroQAT(零开销量化感知训练,Zero-Overhead Quantization-aware Training)等新技术。量化感知训练(QAT)是确保高度压缩模型仍能维持精度的关键技术。传统的QAT流程可能涉及额外的计算开销,而ZeroQAT的目标是显著提高这一过程的效率。这项工作,以及针对新型扩散大语言模型(dLLMs)设计的QuaRot(旋转基方法)等专业化量化策略的出现,表明模型效率的优化已经成为一个系统级的挑战,正从单纯的模型后处理转向深度整合到模型的训练流程中 [13]

四、多模态、认知与推理深化

13. Google Veo 3引入“Chain-of-Frames”视觉推理范式

Google DeepMind的Veo 3大型生成视频模型引入了“Chain-of-Frames”(帧思维链)作为其核心的视觉推理范式。这个概念与LLM的Chain-of-Thought(思维链)相对应,意味着模型不再仅仅是基于单帧或简单的时序信息进行判断,而是能够模拟逐步的视觉逻辑规划和抽象推理。Veo 3在感知、直觉物理学和操作等广泛的视觉任务中展示了显著的零样本学习和推理能力,标志着多模态模型正从简单的视觉问答,向具备人类级别深层认知、能够理解和预测动态世界的方向发展 [14]

14. D2I框架:解耦训练深度与测试灵活性的研究

新的“Deliberate-to-Intuitive (D2I)”推理框架解决了多模态LLM(MLLM)的一个核心矛盾:如何在不牺牲测试时响应速度的前提下,强制模型进行深度、结构化的推理训练。D2I的核心机制是:在训练阶段,模型被迫遵循特定的深思熟虑策略(Deliberate Reasoning),例如通过规则奖励(Format Reward)强制模型输出图像关键区域的坐标标签(如)。这种结构化训练有效地培养了可迁移的推理技能。最重要的是,在测试时,这些约束被移除,模型转向直觉推理(Intuitive Reasoning),利用训练中习得的能力快速、灵活地产生答案。这实现了推理深度和测试速度的完美解耦,在多个跨域基准测试中超越了传统基线 。[15] [16]

15. ST-LLM框架应对时空理解的挑战

尽管MLLM能力强大,但现有模型在处理真实世界的时空动态和时间依赖性方面仍存在显著局限。为解决这一问题,研究人员提出了Spatio-Temporal LLM (ST-LLM) 框架。ST-LLM专门设计了投影器(projectors)来增强模型对环境的整体空间理解和对视频片段中动作的时间理解。这对于Agent在现实世界中进行操作和规划至关重要,例如机器人技术中的空间感知。通过在REA(Reasoning about Environments and Actions)数据集上的验证,ST-LLM显著提高了在动态环境下的推理结果,为多模态Agent提供了实时认知基础 [17]

五、核心LLM研究与高级推理策略

16. RLMT:集成CoT的强化学习提升聊天模型性能

Princeton大学的研究人员开发了Reinforcement Learning with Model-rewarded Thinking (RLMT) 技术,旨在通过将显式思维链(Chain-of-Thought, CoT)推理集成到通用聊天模型的强化学习(RL)流程中,显著提升模型性能。RLMT通过让模型“思考”并奖励其“思考过程”,有效解决了传统RLHF中缺乏过程监督的问题。实验证明,这项技术能够让8B参数量的小型模型在多种聊天和创意写作基准测试中,表现媲美甚至超越许多更大规模的前沿LLMs,证明了优化推理过程比单纯扩大模型规模更具成本效益 [18]

17. LLM自我精炼:并行推理的自修正机制

9月ArXiv研究关注了LLMs的“自精炼”(Self-Refinement)能力,特别是如何通过并行推理来提高模型的准确性和一致性。这项研究提出了“Learning to Refine: Self-Refinement of Parallel Reasoning in LLMs”的方法,旨在通过让模型生成多个推理路径,并由模型自身评估和修正这些路径中的错误,最终得出更可靠的答案。这种内部的“自我纠错”机制是Agentic AI可靠性的重要组成部分,减少了对外部人工反馈或复杂工具调用的依赖,让LLM在复杂推理任务中展现出更高的鲁棒性 19 20

18. 查询分解策略提升多跳RAG性能

针对需要从多个分散文档中获取事实才能回答的多跳查询(Multi-hop Questions)的挑战,研究提出了结合查询分解和重排序(Reranking)的RAG管道。该方法首先利用LLM将复杂的原始查询分解为多个独立的子问题,然后检索每个子问题,将所有检索结果合并成一个候选池。最后,使用高精度的**交叉编码器(Cross-Encoder)**对这个池进行重排序。这种策略在MultiHop-RAG和HotpotQA等基准测试中,将检索性能指标MRR@10提升了36.7%,并将回答准确性F1指标提升了11.6%,证明了LLM驱动的查询预处理是解决复杂知识检索的关键 21


引用链接

[1] Anthropic Unveils Claude Sonnet 4.5, Claims AI Coding Crown - WinBuzzer

[2] US Federal Agencies Cleared to Deploy Meta’s AI Model Llama - CoinCentral

[3] Smart Multi-Node Scheduling for Fast and Efficient LLM Inference - NVIDIA Developer

[4] Tree-GRPO: Tree-Based Reinforcement Learning Framework for LLM Agents - AlphaXiv

[5] Bloomberg’s AI Engineers Introduce Improved Agent Tool Calling Methodology - Bloomberg

[6] LangGraph Concepts: Memory (Short-Term & Long-Term) - LangChain AI

[7] Reciprocal Rank Fusion (RRF) REST API - Elastic

[8] Flyer: Scopus AI RAG Fusion (PDF) - CTF Assets

[9] Smart Multi-Node Scheduling for Fast and Efficient LLM Inference - NVIDIA Developer

[10] LLM Inference: Speculative Streaming Technology - Apple Machine Learning Research

[11] HAI AI Index Report 2025 (PDF) - HAI Production

[12] The Great Quant Wars of 2025 - Reddit r/LocalLLaMA

[13] Computer Science > Learning (cs.LG) Current Papers - arXiv

[14] Google Veo 3: Chain-of-Frames Visual Reasoning Paradigm - AlphaXiv

[15] Deliberate-to-Intuitive (D2I) Reasoning Framework - arXiv:2507.06999

[16] Deliberate-to-Intuitive (D2I) Reasoning Framework (PDF) - arXiv:2507.06999

[17] Spatio-Temporal LLM (ST-LLM) Framework - arXiv:2507.05258

[18] RLMT: Reinforcement Learning with Model-Rewarded Thinking - AlphaXiv

[19] LLM Self-Refinement: Parallel Reasoning Self-Correction - arXiv:2507.06999

[20] Computer Science > Learning (cs.LG) Current Papers - arXiv

[21] Query Decomposition for Multi-Hop RAG Performance - arXiv:2507.00355

Logo

更多推荐