近年来,大语言模型正在加速由对话工具迈向自主智能体,OpenClaw 等成为这一转变的重要里程碑。但当 Agent 试图介入真实生产环境时,核心矛盾日益凸显:是让 Agent 被动适应人类现有的图形界面与操作逻辑,还是为 Agent 重新设计数字世界?

与此同时,Agent 系统代码量急剧膨胀(OpenClaw 已超百万行),架构臃肿与效率瓶颈,使得「轻量化」和「生产力化」成为演进的关键命题。如何让 Agent 从简单助手进化为真正参与工作的数字协作者,正成为产业界与学术界共同聚焦的前沿议题。

在 2026 北京智源大会上,香港大学助理教授、博士生导师黄超在「Agent for Science」论坛中,以「从简单助手到强生产力——AI Agent 系统的范式变革」为题,系统阐述了他关于 AI Agent 范式变革的深度思考。他不仅分享了如何以更轻量级的方式构建通用 Agent 系统,从架构层面突破当前 Agent 落地中的核心技术痛点,还提出了让软件原生支持 Agent 语言的 CLI-Anything,并深入探讨了 Agent 自进化、集群协作等通向「数字劳动力」的关键路径。

图片

香港大学助理教授、博士生导师黄超

HyperAI 在不违原意的前提下,对黄超老师的演讲分享进行了整理汇总,以下为演讲实录。

从「模型即 Agent」到「模型+Harness」:Agent 的本质回归

从去年的 Prompt Engineering,到 Context Engineering,再到如今的 Harness,这一演变折射出一个深层认知的转变:很多任务,并非基础模型单独就能完美胜任。「模型即 Agent」的理念曾风行一时,但今年的普遍共识是——若直接让大模型独自应对复杂任务与超长上下文,无论是成本还是实际表现,都远不及「模型 + Harness」协同的方式。模型依然至关重要,但现在的理解是:Agent 的本质,是「模型 + Harness」的结合体。

Agent 的核心架构可以看作是一个 ReAct(Reasoning + Acting)循环:接收查询、推理规划、调用工具、观测反馈,如此往复。基于这一理念,香港大学 HKUDS 实验室发布了 nanoBot——以极致轻量的方式(初始约 4,000 行,目前 6,000 行左右)探索 Agent 的最小可行实现,希望向社区传递一个朴素的观点:构建一个好用的 Agent,或许并不需要动辄数十万行的复杂实现。nanoBot 发布后收到了不少来自社区的积极反馈,曾登上 OpenRouter 通用 Agent 榜单第四名,也有幸被 DeepSeek 列为全球推荐的 15 个通用 Agent 之一。

长程任务与自进化:当前 Agent 的两大攻坚隘口

第一道是长程任务。 这不仅意味着运行时间长,更在于任务链路复杂、工具调用频繁、上下文持续切换,且错误会随步骤不断累积。以量化交易为例,要求 Agent 7×24 小时稳定运行,难度极高。其瓶颈往往源于三个层面:

一是指令层面的失真,人类往往难以精准表达真实意图,也很难将足够全面、真实的上下文完整传递给 Agent;

二是记忆与上下文管理的失控,随着任务链路延伸,关键信息的遗漏与错位会让 Agent 的决策逐渐偏离轨道;

三是缺乏有效的验证机制,在科研等开放性任务中尤为突出,Agent 常因无法自主判断执行结果的正确性而中途搁浅。

因此,清晰的意图传递、有效的上下文管理与精准的验证机制,共同构成破解长程任务的关键所在。

第二道是自进化。 大多数 Agent 系统本质上是无状态的——每一次任务结束,经验归零,无论成功还是失败,下一次依然从头开始。OpenSpace 试图从根本上改变这一点:通过在任务执行后主动沉淀经验、归因失败、强化成功路径,并在后续任务中持续调用与复用,让 Agent 对特定领域的理解随使用深度不断加深。这套自进化机制不依赖模型本身的更新,而是通过运行时的经验积累,将 Agent 从「每次归零的执行者」,真正演进为一个能够跨任务持续成长的智能体。其中难点之一在于:如何判断触发自进化的时机、如何评估所沉淀技能的质量与可靠性,以及如何规划一条安全可控的进化路径——这些问题,也正是 OpenSpace 当下持续探索的核心课题。

AI 原生交互:从 GUI 回归 CLI 构建 AI 原生的 CLI 生态

要让 Agent 从「AI 助手」真正进化为「AI 打工人」,首要任务是让它学会使用软件——而这,正是 Agent 迈向真正生产力的关键一环。此前主流的 GUI Agent 通过截图模拟点击来操控界面,弊端显而易见——Token 消耗巨大、执行迟缓、性价比低下。这就好比让机器人洗碗时刻意模仿人类的每一个动作,而非直接按下洗碗机的开关。GUI 未必是 AI 原生的交互形态——CLI(命令行接口),才是。

将 Word、Excel、3D 建模、专业设计工具、企业级 ERP 与数据分析平台等繁琐的操作性任务交由 Agent 处理——这正是 Agent 释放生产力价值的核心场景。基于这一判断,团队构建了一个 CLI 平台,在一个月内集成了 96 款软件的 CLI 接口。目前,Agent 对该平台的访问量已达 20 万次。Agent 接收到查询后,会自动匹配并调用对应的 CLI 接口——开发者无需封装复杂 API,Agent 可直接扫描命令接口完成调用。某种意义上,这是一次从 GUI 时代向 CLI 时代的回归,而这一次,它为 Agent 的生产力而生。

多智能体集群与评价机制:通往规模化的未定之域

多智能体集群是当前最令人兴奋、也最充满不确定性的方向之一。与大模型「更多算力 = 更强性能」的 Scaling Law 不同,Agent 集群至今尚未发现普适的规律。在 DeepResearch、大规模软件开发、多媒体制作等不同场景下,所观察到的 Scaling 趋势差异显著——在某些任务中,多 Agent 协作能带来近乎线性的效率提升;而在另一些场景中,盲目增加数量反而导致协调成本攀升、整体效率下降。集群规模与任务收益之间的关系,远比想象中复杂,其涌现规律仍有待更系统的探索。

贯穿所有这些进展的底层基石,是评价机制的确立。评价工程并非锦上添花,而是 Agent 系统能否真正落地的先决条件——它定义了什么叫「做对了」,涵盖正确性、安全性、可解释性与行为一致性。一旦评价体系健全,许多长程任务的难题将自然松动:明确的验证标准能有效消解指令模糊性,为 Agent 提供稳定的决策锚点。在开源 Agent 日益繁荣、Claude Code、Codex 等商业产品强势入场的今天,技术本身已难成护城河——真正的壁垒,在于持续积累的领域经验、快速迭代的工程能力,以及对算法、系统与基础设施的深度融合。Agent 不只是一个模型问题,更是一个系统工程问题。

关于黄超教授及其团队

图片

团队开源成果

黄超因其突出的学术贡献,先后荣获世界人工智能大会(WAIC)2024 云帆奖「璀璨明星」称号与 2024「国际基础科学大会·前沿科学奖」,并入选「2025 AI100 青年先锋」及「2025 AI 2000 全球最具影响力学者」名单。其研究成果多次入选 AI 与数据科学顶级会议最具影响力论文,并斩获多项最佳论文提名奖。他所带领的 HKUDS 开源平台在 GitHub 上已累计获得超 30 万 Star,位列全球开源组织 Top 30,开源系统下载量突破 20 万次。团队的代表性成果涵盖 nanobot、CLI-Anything、LightRAG、DeepTutor、RAG-Anything、AI-Trader、DeepCode、Vibe-Trading、OpenHarness、Vimax、OpenSpace、AI-Researcher 等,覆盖从基础设施到应用层的多个前沿方向。

在学术理念上,黄超主张 AI Agent 时代需要重构数字基础设施,核心理念是:当前 Agent 的发展亟需一套更加完善、原生适配的生态体系来支撑——唯有如此,才能真正激发出 Agent 的潜力,而非让其被动适应人类现有的系统与工具。他针对当前 Agent 系统日益臃肿的问题,明确提出将 Agent 做轻做薄——剥离冗余复杂度,回归本质。与此同时,他强调 CLI(命令行接口)才是真正 AI 原生的交互方式,软件应当原生支持 Agent 的「语言」,而非让 Agent 费力地翻译人类界面。他的长远愿景,是推动 Agent 从简单的「AI 助手」跃升为能够独立承接任务、持续创造价值的「数字劳动力」。

参考链接:

1.https://www.163.com/dy/article/KTV2FP9N051180F7.html

2.https://www.jazzyear.com/article_info.html?id=1736

3.https://events.hkust-gz.edu.cn/zh_CN/detail/4989

4.https://hub.baai.ac.cn/view/55125

Logo

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地,聚焦技能开发、插件实践与部署教程,为开发者提供可直接落地的方案、工具与交流平台,助力高效构建与落地 AI 应用

更多推荐