从简单助手到强生产力，香港大学黄超团队的AI Agent落地攻坚实录

HyperAI超神经

77人浏览 · 2026-06-26 14:57:45

HyperAI超神经 · 2026-06-26 14:57:45 发布

近年来，大语言模型正在加速由对话工具迈向自主智能体，OpenClaw 等成为这一转变的重要里程碑。但当 Agent 试图介入真实生产环境时，核心矛盾日益凸显：是让 Agent 被动适应人类现有的图形界面与操作逻辑，还是为 Agent 重新设计数字世界？

与此同时，Agent 系统代码量急剧膨胀（OpenClaw 已超百万行），架构臃肿与效率瓶颈，使得「轻量化」和「生产力化」成为演进的关键命题。如何让 Agent 从简单助手进化为真正参与工作的数字协作者，正成为产业界与学术界共同聚焦的前沿议题。

在 2026 北京智源大会上，香港大学助理教授、博士生导师黄超在「Agent for Science」论坛中，以「从简单助手到强生产力——AI Agent 系统的范式变革」为题，系统阐述了他关于 AI Agent 范式变革的深度思考。他不仅分享了如何以更轻量级的方式构建通用 Agent 系统，从架构层面突破当前 Agent 落地中的核心技术痛点，还提出了让软件原生支持 Agent 语言的 CLI-Anything，并深入探讨了 Agent 自进化、集群协作等通向「数字劳动力」的关键路径。

香港大学助理教授、博士生导师黄超

HyperAI 在不违原意的前提下，对黄超老师的演讲分享进行了整理汇总，以下为演讲实录。

从「模型即 Agent」到「模型+Harness」：Agent 的本质回归

从去年的 Prompt Engineering，到 Context Engineering，再到如今的 Harness，这一演变折射出一个深层认知的转变：很多任务，并非基础模型单独就能完美胜任。「模型即 Agent」的理念曾风行一时，但今年的普遍共识是——若直接让大模型独自应对复杂任务与超长上下文，无论是成本还是实际表现，都远不及「模型 + Harness」协同的方式。模型依然至关重要，但现在的理解是：Agent 的本质，是「模型 + Harness」的结合体。

Agent 的核心架构可以看作是一个 ReAct（Reasoning + Acting）循环：接收查询、推理规划、调用工具、观测反馈，如此往复。基于这一理念，香港大学 HKUDS 实验室发布了 nanoBot——以极致轻量的方式（初始约 4,000 行，目前 6,000 行左右）探索 Agent 的最小可行实现，希望向社区传递一个朴素的观点：构建一个好用的 Agent，或许并不需要动辄数十万行的复杂实现。nanoBot 发布后收到了不少来自社区的积极反馈，曾登上 OpenRouter 通用 Agent 榜单第四名，也有幸被 DeepSeek 列为全球推荐的 15 个通用 Agent 之一。

长程任务与自进化：当前 Agent 的两大攻坚隘口

第一道是长程任务。 这不仅意味着运行时间长，更在于任务链路复杂、工具调用频繁、上下文持续切换，且错误会随步骤不断累积。以量化交易为例，要求 Agent 7×24 小时稳定运行，难度极高。其瓶颈往往源于三个层面：

一是指令层面的失真，人类往往难以精准表达真实意图，也很难将足够全面、真实的上下文完整传递给 Agent；

二是记忆与上下文管理的失控，随着任务链路延伸，关键信息的遗漏与错位会让 Agent 的决策逐渐偏离轨道；

三是缺乏有效的验证机制，在科研等开放性任务中尤为突出，Agent 常因无法自主判断执行结果的正确性而中途搁浅。

因此，清晰的意图传递、有效的上下文管理与精准的验证机制，共同构成破解长程任务的关键所在。

第二道是自进化。 大多数 Agent 系统本质上是无状态的——每一次任务结束，经验归零，无论成功还是失败，下一次依然从头开始。OpenSpace 试图从根本上改变这一点：通过在任务执行后主动沉淀经验、归因失败、强化成功路径，并在后续任务中持续调用与复用，让 Agent 对特定领域的理解随使用深度不断加深。这套自进化机制不依赖模型本身的更新，而是通过运行时的经验积累，将 Agent 从「每次归零的执行者」，真正演进为一个能够跨任务持续成长的智能体。其中难点之一在于：如何判断触发自进化的时机、如何评估所沉淀技能的质量与可靠性，以及如何规划一条安全可控的进化路径——这些问题，也正是 OpenSpace 当下持续探索的核心课题。

AI 原生交互：从 GUI 回归 CLI 构建 AI 原生的 CLI 生态

要让 Agent 从「AI 助手」真正进化为「AI 打工人」，首要任务是让它学会使用软件——而这，正是 Agent 迈向真正生产力的关键一环。此前主流的 GUI Agent 通过截图模拟点击来操控界面，弊端显而易见——Token 消耗巨大、执行迟缓、性价比低下。这就好比让机器人洗碗时刻意模仿人类的每一个动作，而非直接按下洗碗机的开关。GUI 未必是 AI 原生的交互形态——CLI（命令行接口），才是。

将 Word、Excel、3D 建模、专业设计工具、企业级 ERP 与数据分析平台等繁琐的操作性任务交由 Agent 处理——这正是 Agent 释放生产力价值的核心场景。基于这一判断，团队构建了一个 CLI 平台，在一个月内集成了 96 款软件的 CLI 接口。目前，Agent 对该平台的访问量已达 20 万次。Agent 接收到查询后，会自动匹配并调用对应的 CLI 接口——开发者无需封装复杂 API，Agent 可直接扫描命令接口完成调用。某种意义上，这是一次从 GUI 时代向 CLI 时代的回归，而这一次，它为 Agent 的生产力而生。

多智能体集群与评价机制：通往规模化的未定之域

多智能体集群是当前最令人兴奋、也最充满不确定性的方向之一。与大模型「更多算力 = 更强性能」的 Scaling Law 不同，Agent 集群至今尚未发现普适的规律。在 DeepResearch、大规模软件开发、多媒体制作等不同场景下，所观察到的 Scaling 趋势差异显著——在某些任务中，多 Agent 协作能带来近乎线性的效率提升；而在另一些场景中，盲目增加数量反而导致协调成本攀升、整体效率下降。集群规模与任务收益之间的关系，远比想象中复杂，其涌现规律仍有待更系统的探索。

贯穿所有这些进展的底层基石，是评价机制的确立。评价工程并非锦上添花，而是 Agent 系统能否真正落地的先决条件——它定义了什么叫「做对了」，涵盖正确性、安全性、可解释性与行为一致性。一旦评价体系健全，许多长程任务的难题将自然松动：明确的验证标准能有效消解指令模糊性，为 Agent 提供稳定的决策锚点。在开源 Agent 日益繁荣、Claude Code、Codex 等商业产品强势入场的今天，技术本身已难成护城河——真正的壁垒，在于持续积累的领域经验、快速迭代的工程能力，以及对算法、系统与基础设施的深度融合。Agent 不只是一个模型问题，更是一个系统工程问题。

关于黄超教授及其团队

团队开源成果

黄超因其突出的学术贡献，先后荣获世界人工智能大会（WAIC）2024 云帆奖「璀璨明星」称号与 2024「国际基础科学大会·前沿科学奖」，并入选「2025 AI100 青年先锋」及「2025 AI 2000 全球最具影响力学者」名单。其研究成果多次入选 AI 与数据科学顶级会议最具影响力论文，并斩获多项最佳论文提名奖。他所带领的 HKUDS 开源平台在 GitHub 上已累计获得超 30 万 Star，位列全球开源组织 Top 30，开源系统下载量突破 20 万次。团队的代表性成果涵盖 nanobot、CLI-Anything、LightRAG、DeepTutor、RAG-Anything、AI-Trader、DeepCode、Vibe-Trading、OpenHarness、Vimax、OpenSpace、AI-Researcher 等，覆盖从基础设施到应用层的多个前沿方向。

在学术理念上，黄超主张 AI Agent 时代需要重构数字基础设施，核心理念是：当前 Agent 的发展亟需一套更加完善、原生适配的生态体系来支撑——唯有如此，才能真正激发出 Agent 的潜力，而非让其被动适应人类现有的系统与工具。他针对当前 Agent 系统日益臃肿的问题，明确提出将 Agent 做轻做薄——剥离冗余复杂度，回归本质。与此同时，他强调 CLI（命令行接口）才是真正 AI 原生的交互方式，软件应当原生支持 Agent 的「语言」，而非让 Agent 费力地翻译人类界面。他的长远愿景，是推动 Agent 从简单的「AI 助手」跃升为能够独立承接任务、持续创造价值的「数字劳动力」。

参考链接：

1.https://www.163.com/dy/article/KTV2FP9N051180F7.html

2.https://www.jazzyear.com/article_info.html?id=1736

3.https://events.hkust-gz.edu.cn/zh_CN/detail/4989

4.https://hub.baai.ac.cn/view/55125