agent测试，零基础入门到精通，收藏这篇就够了

最近一直想写一些我对 AI Agent 产品以及商业化的思考，工作太忙了以至拖到现在（不是懒），趁着假期碎碎念然后安心带娃。全文约 12,000 字，预计阅读时间 30 分钟，让我们开始吧！Ps. 我会把所有相关引用原文放到文章底部参考资料部分，便于你进一步阅读。全文大纲一、这些 Agent 真能留下来吗二、拆解代表性 Agent三、垂类 Agent 会被模型升级淘汰吗四、信任是不是 Agent

leah126

705人浏览 · 2025-10-24 15:48:42

leah126 · 2025-10-24 15:48:42 发布

最近一直想写一些我对 AI Agent 产品以及商业化的思考，工作太忙了以至拖到现在（不是懒），趁着假期碎碎念然后安心带娃。

全文约 12,000 字，预计阅读时间 30 分钟，让我们开始吧！

Ps. 我会把所有相关引用原文放到文章底部参考资料部分，便于你进一步阅读。

全文大纲

一、这些 Agent 真能留下来吗

二、拆解代表性 Agent

三、垂类 Agent 会被模型升级淘汰吗

四、信任是不是 Agent 的护城河

五、入口和心智同样重要

一、这些 Agent 真能留下来吗？

Karpathy 说：“未来十年是 Agent 的十年。”

这话听起来有点像 VC 忽悠人的 Slogan。

不但句式完整，想象力很足，甚至还带那么点规划。

不过，我深以为然。

因为现在 Token 越来越便宜， MCP 越来越丰富，用户也越来越能接受长耗时的 AI 过程。

过去半年，我们眼见着一个个 Agent 产品从 Demo 走向 B/C 端 …

Manus、扣子空间、Lovart、Flowith Neo、Skywork，还有最近开源的超级麦吉。

邀请码被炒到几千块，内测还没上线就有企业问能不能搞私有化部署的都有。

只不过，我越用越在想，这么多 Agent，

到底什么样的产品，能在大浪淘沙之后留下来？

我自己拆解产品价值时，会考虑这样的一条公式：

产品价值 = 能力 × 信任 × 频率

• 能力：指的是你到底能帮用户做成什么事？有没有形成稳定、可交付的产物？

• 信任：是用户愿不愿意让你接手这件事？过程是否可控、行为可解释？

• 频率：则是你是不是在用户需要的场景里，随手能调起？

每个维度最高分是 3 分；分为高中低与 0。

基础线是 8 分，超过 8 分属于好 Agent，低于 8 分属于存疑产品。

公式参考了很多一线投资人的观点：

Reid Hoffman 说过，“未来我们每个人身边都有多个 AI 伙伴，它们组成一个能和你共事的Team”，但前提是：你信它、你能管它、你能复用它。
a16z 提醒创业者，Agent 的进化路径从 Copilot 到独立 Agent，需要能不能接住需求开始。
红杉资本甚至用“Always-On Economy”来描述 Agent 的未来形态，但前提依然是：你有没有能力、你值不值得信任、你是否活在用户日常操作里。

所以，Agent 产品不是谁跑得快、干得像人，就能活得下来。

而是谁在这三个维度上，每个都不能是零。

二、拆解代表性 Agent

那到底，哪些产品的「能力 × 信任 × 频率」乘积够大，真的有留下来的可能？

我选了六个过去半年被频繁提及、在 B / C 端都有真实用户使用的 Agent 产品：

Manus、扣子空间、Lovart、Flowith Neo、Skywork，以及超级麦吉。

试着测评这几个产品，套一下上面的公式，试着从这三件事来看清它们各自的关键点：

1. 能力：它到底帮你完成了什么任务？
2. 信任：做得质量能不能一次生成？
3. 频率：它能不能更高频承接你的需要？

评分是个人主观评分，如果有不同意见，欢迎评论区讨论。

Ps.如果你不想看各个产品拆解，可以快速滑动到后面的思考部分。

Manus：爆得快，掉得也很快

我第一次看到 Manus，是那天晚上卡兹克在群里的直播。

一句话描述任务，它就能自动拆解、规划、执行，再拼出一个完整的结果页面，甚至会自动写总结。

那一瞬间我确实动心了：这是不是已经比 Copilot 更像 Agent了！

但真正用下去之后，我看到…

它只能在独立网页上跑流程，入口重，没法嵌进任何我日常工作的地方；
流程跑一半经常上下文断掉，中间卡住一环，等好久回头就挂了；
它能做事，但我说不上它做得是不是我真正想要的：我给命题，他还结果。

然后…这个结果，是不是你心里那个目标？难说。

后来它限流，我就再没点开了。

它确实给了“能用”的场景，但没留下“好用”的理由。

Manus 的问题不在于交互多么牛逼，而在于我用了一次，我没有信心开第二次。

用「能力 × 信任 × 频率」的评估公式，来看看它：

能力一般，成功率基本上在 20% 以下，给 1 分；
信任也有暴露，中间步骤、引用内容都可查，给 2 分；
但 Manus 很难融到用户的工作环境中，满血版不支持国内网络环境，给 1 分。

最终分数是：2 分，基本上归类到玩具一类。

但是但是！

Manus 的意义，还是得单独拿出来说。

它让很多用户第一次意识到，甚至是AI 产品从业者意识到：Agent 不是更聪明的对话，而是更完整的动作链。

你可以说它只是缝合怪、demo 感太重，

但它确实让我们看见了一个新的范式。

Agent 不再是 Chat bot，而是：你说一个任务，它替你走完全流程。

就像硅谷 101 那篇文章标题写的：

Manus 不够好，但天快亮了。

这个视频链接放在文末参考资料里，值得一看。

扣子空间：路线对，链路完整，但还在找用户留存的理由

扣子空间我之前单独写过一篇测评与拆解。

那时候我的判断是，它的意义不在“用起来多聪明”，而在于：

它是我第一次看到有 Agent 系统，能真的把「MCP 调用、任务编排、结果交付」稳定地跑完。

因为这件事不是谁想做就能做，MCP 接入只是门槛，更大的难题在于：

有没有牛逼的调度系统帮助跑完；
有没有工程化机制能兜住各种异常；
有没有敢做全链的基础架构。

它做得不完美，体验还不够顺滑，但它的路径清晰，方向可信。

但拉回现在这套「能力 × 信任 × 频率」的评估公式，再来看看它：

能力没问题，链路完整、MCP 体系化使用，给 3 分；
信任也有暴露，中间步骤、引用内容都可查，给 2 分；
频率稍弱，它更多是被挂在扣子空间的页面里，需要用户收藏页面，给 2 分。
- 如果哪天扣子空间合并到了飞书中… 那就是 3 分。

最终 12 分，属于后续更新了新版本，我会愿意积极尝试的程度。

我甚至觉得，如果今年内会出现一款杀手级 All In One 的 Agent 应用，

扣子空间的胜率很大。

因为…豆包模型 + 火山 MCP + 豆包的体量 + 扣子的Agent 调度能力；

天时地利人和几乎占尽…

如果扣子空间的运营看到，请给我打钱谢谢…

而且，在架构上，扣子空间是系统最完整、迭代路径最清晰的 Agent 产品之一。

虽然迭代路径清晰，架构完整，但它要留下来，可能还得回答一个问题：

由于扣子空间是通用 Agent，那么…

在哪个任务场景里，用户能第一时间想起你？
至少现在，我还没建立起这个直觉。

Lovart：直接给你交稿

Lovart 是为数不多，我真正当做生产力工具的 Agent。

也是我真的用钱投票的产品。

因为它实实在在做到直接交稿的事情：

我提需求，它自己拆成任务；
中间怎么画、用什么风格、怎么配色、怎么分层，它全程自己决定；

我全靠 Lovart 设计我公众号的主视觉。

这真·是生产力工具。

他带来的价值，是我不具备的 “关于设计的 Know How”。

我不需要再思考 prompt 写得够不够好，反正我没有它好，我只要习惯只表达目标。

我之前专门写过一篇拆解它的文章，里面分析了它如何用 KnowHow 构建流程、生成统一风格的 MBTI 套图、如何自选工具链和标准化交付结构。

如果用「能力 × 信任 × 频率」这个公式来看：

能力，几乎是“以交付为核心的整合型能力”，不是拼拼图而是真能做成事，我给 3 分；
信任，在于你知道它交得出来，哪怕你点“生成”前会犹豫，但点完后大概率会满意，同样给 3 分；
频率，目前还是偏工具型，入口依赖用户主动保存并打开，我给 2 分。

总分 18 分，属于优秀 Agent。

我很喜欢 Lovart，它几乎能满足我的大部分设计场景，我只需要发起多次任务，然后收割结果。

很多人说它是个缝合怪，但我觉得它是缝合得特别好的缝合怪。

我认，我冲。截图会员身份以示支持。

Lovart 运营看到了也请给我打钱QUQ

Flowith Neo：交互非常独特的 Agent

在没出 Agent 的时候，我就很喜欢这样的交互了。

我和 Chat bot 对话的过程中，会基于某个节点进行新提问， Flowith 将这部分具象化了。

Neo 发布之后，我觉得是真的遵循好 Planning 、Action 范式的 Agent。

比如，我让他分析

它没有二次确认，上手自己开始拆：

筛选股票、抓市场新闻、汇总分析；
一步步走工作流、结构化生成、分模块输出。

页面上每个流程节点都能看到内容，生成速度很不错，最后结果汇总成报告。

很大程度上缓解了我对AI 掌控的焦虑。

但仔细拆了之后，我发现它有两个关键能力特别牛逼：

一个是并发。不是并行调几次这种Level，而是它可以在一个任务里同时起N个执行链，互不冲突、稳定输出；
另一个是并发之后的串联机制。并发带来的超长上下文，要怎么不超模型 Token 上限？

这个是很令人头痛的工程化瓶颈，而 Neo 在这一步做得很好，能把并发节点自动组织、排序、压缩甚至推给下一步模型继续用。

它能把推理结构具象化，这是一种很酷的 AI 设计，我很喜欢。

不过，我不能代表所有用户，这个酷酷的交互，对大部分基础用户来说…

很多用户并不需要一个画布，他们只要一个开始，一个结束。
因为画布的交互，不是所有普通用户都能玩明白，自由的画布反而会让人无所适从。

所以如果你真有任务需要 Agent 跑流程，那它值得一试。

但如果你想找一个每天都能给你干活的搭子，它可能还不够顺手。

如果用「能力 × 信任 × 频率」来拆：

能力没得说，它能拆能跑、执行链完整、支持高并发，后处理能力也在线，给 3 分；
信任也可以，流程透明、失败可查、输出有状态，给 3 分；
频率偏低，太开放的命题让我不知道他能做哪些，给 1 分。

总分 9 分；我对它的评价可能更多是一个玩具。

哦对，刚刚我给他的命题，他真的给我推荐了。

好的，相信你，我建仓了…

Flowith 你最好… 靠谱一点…

Skywork：Manus Pro Ultra，办公界的 Lovart

Skywork 是我目前看到“办公场景最强 Agent”的产品。

虽然它长得像 Manus，但我得说一句公道话：

它比 Manus 强太多了。

其实很多 Agent 产品的基本形态都像 Manus，可见：Manus 还是走得挺超前。

但 Skywork 不是简单的模板，它是把 Manus 产品框架理解、吃透，

再结合用户的真实需求，重新做了一遍。

在用户交互、任务结构、执行逻辑这几件事上，彻底补上了“能用”与“好用”之间的Gap。

我测试它的时候，是让它分析「金山办公股票值不值得买」，给我做个 PPT。

一句话输入之后，它并不会立刻开跑，而是先确认任务范围：

明确分析维度（财务、行业、风险、时间跨度）；
分模块列出任务计划：公司概况、主营业务、行业对比、竞争格局、投资建议；
接着通过 MCP 工具访问证券网、年报、同花顺 F10 页面，自动抓数；
最后通过 HTML 生成一组完整的页面，然后再把 HTML 转成完整的 PPT。
更离谱的是，它加了溯源功能！

没有废话、不炫技，没有找点资料糊弄我一脸，老老实实查数据、跑引用、出图表、做 PPT。

虽然中间因为访问来源太多，被反爬挂了一两个链接，但对最终结果几乎没影响。

我觉得，这也是 Skywork 的真正价值所在：

它不是 ChatBot，不是 CoPilot，也不是 Flowith 那种玩流程自由的系统。
它就是这是一个班味很重的牛马 Agent，知道我要啥的 Agent。

如果说 Lovart 是最懂设计的 AI ，那 Skywork 就是最懂写 PPT 的 AI。

接下来，我想说：它强调的不是充满个性，而是稳定 & 可信。

因为：

PPT 是有架构的；
推荐理由是清楚的，甚至每段带引用；
执行链是可查的，数据来源可回溯；
输出文件是能直接用的，而不是那种表演型的 Agent。

这也是我用完它之后，特别认同红杉资本那句判断：

“你最好给客户一个端到端的解决方案，而不是把工具怼到他脸上。”

国内注明投资人朱啸虎也有类似的观点：

AI 即服务，工具是卖不出价钱的，用户买的是结果。

引用我在年初推文的这段话，我觉得现在还是没有改变的：

用户对 AI 产品的付费动力：

看起来，买的是工具的能力，

但本质是是为了AIGC 的产物付费；是为优质的内容买单。

Skywork 给的就是一个完整、能交、能解释、能改的结果。

如果按「能力 × 信任 × 频率」来拆：

能力不在多，而在准。它知道你要一份什么样的稿子，也知道怎么分步骤完成它，我给 3 分；
信任值很高，每一段都有出处、有结构、不跑题、能兜底，我给 3 分；
频率不算日常，但凡你要做个材料，天工肯定是我首选的外包对象，我给 2 分。

天工在我心里是 18 分，很优秀。

可以看看天工生成的报告，对我这需求而言，这份报告已经完成了 90%

这个 PPT 甚至超越了大部分普通用户的 PPT 设计水平。

内容质量，在今天的 Agent 产品产物里，已鹤立鸡群。

超级麦吉：融入到 OA 里的 Agent

麦吉是我特地加入的一个 Agent。

它代表着另一类我们平时看不到的，真正跑在 B 端系统里的 Agent。

如果你是创业团队，需要协作软件，推荐你试试麦吉，它很接近我理想中 AI 驱动产品的形态。

github地址：https://github.com/dtyq/magic

甚至… 它也有深度研究 & 生成 HTML 或者 PPTX。

它的界面和天工很像，只不过它开源得更早。

开源的结果，就是：如果一些闭源产品的产品力赶不上他，那闭源产品对于小团队而言的吸引力会降低。

不同于 Flowith、Lovart 那样强调 AIGC ，麦吉关注的是：

OA 里那些没人愿意干、但又天天得人干的事情，谁来替你干？

比如：

发票识别、校验、归档；我每次都在Q快结束的时候，匆匆报销…
审批流程的权限路径判断，不需要你手动添加审批人；
企业内报表的匹配、统计、还有解读以及可视化；
供应链表单的结构化填写、字段关联与表单转化…

麦吉是我目前看到最“安静”的 Agent。

没有大入口，只有流程需要它的时候，它会自己出现。

比如直接发起出差申请

或者 AI 智能审批。

测试的时候，我甚至不觉得这玩意是 Agent，但它确实很有用。

它的有用，是融合到 OA 里的，是真·提能增效。

毕竟能让你：

不需要再重复填同一张表；
不需要手动发催办；
也不用因为一张差旅单在 OA 系统里点 N 个按钮。

这也是为什么我愿意把它放进来…

麦吉官方关注我了吗，看到的话也请给我打钱…

所以，麦吉产品和AIGC Agent 不一样在于，

Agent 不是一定要交付内容才能成立，有时候它是替你跑流程的 Agent。

所以如果按「能力 × 信任 × 频率」来拆：

能力是流程执行能力，而不是基模的 AIGC 能力，产品团队做好了转换，我给 3 分；
信任必须是系统级的，它必须极度可靠、权限明确，否则是公司级的弃用，我给 2 分；
频率极高，只要公司流程在，麦吉就要在，不需要员工主动点开；这种在 OA 环境里，妥妥的 3 分。

同样的 18 分。

上面这些产品拆完之后，我的判断更明确了一些：

有的 Agent 看起来花里胡哨的，显得是大聪明，但我不愿用第二次；

有的 Agent UI 平平无奇，但我每次写材料还是会想起它。

有的需要你通过入口进入，主动发起，有的是直接嵌在 OA 流程里被动调用。

它们功能各异、路径不同，但仍然可以用三个问题把它们串起来：

它能不能完成一次完整的任务？
用户愿不愿意再问第二次？
它是不是你想用的时候，能快速出现？

回到公式：产品价值 = 能力 × 信任 × 频率

这三项，不是哪一项强就能顶掉其它。

而是三项一乘，只要有一项是 0，结果就是 0。

不是谁功能最多，谁就能留下来；

也不是谁最像真人，谁就能占据用户心智。

而是谁的三项乘积，不为零。

不过，拆解的产品之中，有的是通用 Agent，有的是垂类 Agent。

光聊 Agent 可能不太好理解，所以后面我计划使用专才和通才进行分析。

如果我们把 Agent 比做真人，通用 Agent 就是通才，啥都能干点（可能还不错），但很少能已干到底；

垂类 Agent 就是某个领域的专家，可能交流 0分，干活满分。

你不一定每天找他，有的时候甚至很怕和他交流…

但真正要搞点啥的时候，还是得他来处理。

我自己的判断是：

至少在现在这个阶段，真正能留下来的，一定是垂类（专才） Agent。
它们把场景吃透了，流程做稳了，结果也能直接交上去。

因为通用 Agent 缺少垂类场景的 KnowHow ，看起来啥都能做，

但真要交付一个稳定、可控、可交付的结果，就开始不够看了。

但话说回来，我也不是没想过另一个问题：

这些所谓的流程结构、行业 KnowHow，会不会只是一个暂时性的优势？

毕竟：通用模型在变，基模越来越强，现在已经能深度思考、调MCP、结构化输出、甚至还是多模态N 合一。

那如果再往前走一步，是不是这些专才 Agent 做的事，也很快能被通用模型升级之后顺手一锅端？

因为 Know How 只有在没公开出来之前才是 Know How。

想到这里，自己 diss 一下：

如果 Claude 4 能天生 OA 流程、GPT-4o 能写报告、千问能直接对话输出语音，
那我为什么还需要一个专职搞流程，专门写报告、专门汇报的 Agent？

三、专才 Agent 会被通才模型淘汰吗？

这问题也不是没想过。

尤其是最近用 GPT-4o 写出超长文本、Claude 4 写工具插件、千问Omni 对话之后…

那么，如果通才模型越来越强，是不是像 Lovart、Skywork 这种专职小工最终都会被大模型全能选手干翻？

如果有一天，基模就能干完这些，那我们还需要这些工程化的 Agent 干嘛？

不过后来用着这些产品，我就不那么疑惑了。

我觉得：基模取代不了工程化的 Agent。

因为能力的深度，基模和工程化的 Agent 就是不一样的。

模型越来越强，能做不等于能做好

确实，大模型现在已经能完成很多以前需要工具组合的任务：

GPT-4o 可以直接输出排好格式的内容，甚至语气拟人；
Claude 能写出很牛逼的局部代码；
通义千问也能做多模态的输出。

它们在结果层面越来越像人，但有个关键问题是：

它们能干，但你不一定敢用。

Karpathy 也在 Microsoft Build 2023 大会上面说过，像 AutoGPT 这类早期 Agent 最大的问题，不是模型逻辑能力不够，而是上下文窗口有限、记忆机制不稳定，导致行为链条很容易断掉。

任务跑着跑着就忘了初衷，或者走偏了方向，最后做出来的结果也很难持续优化。他认为，真正让 Agent 跑起来的关键，是构建长期记忆和可持续行为路径。

虽然现在已经通过工程化手段，部分解决了这些问题。

比如通过 TODO List。

但这些短板仍然会导致在部分场景下，虽然跑出了结果，但你不敢用，因为你怕里面的部分数据是错的。

说得更直白一点：

它们能跑出一个结果，但不能承接你的责任。

不是他不敢，是你不敢…

这不是能力问题，而是执行条件不达标的问题。

真正的专才 Agent，不完全来自于基模的能力

吴恩达在 2024 年演讲中也提到，与其追求通用智能的全能幻想，不如务实打通一个场景、一个行业、一个流程。

他强调，Agent 要落地，得先能跑通一个任务流、一个标准化结果、一套刚需逻辑。

Lovart 能留下来，不是因为图生得比别人好多少，而是它真的能替设计师交稿；

因为你完全可以拿Lovart 的提示词，给别的大模型生成，效果也不错。

Skywork 能留下来，是它的文档真的可以直接交给老板看，而不是整一些花里胡哨的交互。

对于用户而言，我其实…

不在于哪个模型更强，而在于我不用担心背锅

比如，我在上课的时候，常悄悄让 AI 帮我翻译翻译里面的内容。

直到有一天… 我发现 Claude 大翻车…

真·大翻车…

Claude 4 Sonnet 的表现甚至不如32B的 Qwen 2.5 VL…

你要韩语不行，就别给我整幻觉啊…

这是个很典型的Case：大模型的能力是有边界的，现阶段或许不存在六边形战士大模型。

然而，作为用户，我没办法区分，大模型这条短板，是不是刚好是我需要的功能。

所以，我不在乎这个基模是不是行业 SOTA，我只在乎这个场景下，它要不要让我背锅。
而具有 KnowHow 的开发者，能帮我挑选最合适的基模。

红杉资本在《Agents on the Brain》一文里指出，

当前的 Agent 产品存在三个严重短板：任务执行力差、成本高、没有记忆与学习能力。
GPT 模型虽有“链式推理”的能力，但落到执行环节常常挂链、死循环、或者完成不了任务。他们认为，真正要跑起来的 Agent，必须补齐交付稳定性和流程可靠性，而不是只展示生成能力。

我觉得这个评价落在专才 Agent 上，刚刚好。

我认同的一种未来是：通才吃长尾，专才守高峰

通才模型适合处理探索型任务：陪聊、发散、草稿、灵感抓取…

它的优势是广度，是可配置性，是你不知道自己想干嘛的时候。

但专才 Agent 的优势在于：

你已经知道你要干嘛；
它能接得住，跑得完；
干完了你不会再补第二遍。

就比如一个横店剧组：大模型帮你搞完剧本和大纲，但具体怎么分镜、怎么布景、怎么选角、怎么剪辑，还是要一个懂节奏的 AI 落地团队来做事。

Agent 的角色，就是那个落地团队，团队的价值就在于：

这个团队能不能把这个需求，稳定跑第二次、第三次。

因为不需要他多么有创意了，而是要它能稳到让制片人放心。

这，才是专才 Agent 不可能被通用模型淘汰的理由。

四、信任是不是 Agent 的护城河，还是被高估了？

刚刚我们说到，Agent 能不能留下来，不是看它有多强，而是看它能不能完成一件事、交出一个结果、撑住一次又一次的重用。

而支撑这一切的底层，其实就是一句话：

用户信不信他能做好。

对于随意的问答场景，或者个人使用的场景，你可以很轻松说一句话让 AI 开始生成。

但如果这段内容是要发给客户、提交审批、变成合同、或者挂在系统里给所有人看…

你可能就不那么放心了。

这一刻，模型的 AIGC 的能力和效果都不再是关键，信任感才是决定它能不能跑进生产环境的条件。

信任，来自中途的可解释与可干预

信任，不是功能的属性，而是你敢不敢交出这方向盘的前提。

就比如：你愿意把一个活交给下属，是因为你知道他干得了，也会让你随时知道进度。

朝请示晚汇报，事情跑在哪个节点上你心里有数。

Agent 也是一样的。

真正让用户信任一个 Agent，是因为：

你能一眼看懂它做了什么；

如果它错了，你能快速干预或撤回；

它知道你要什么结果，它知道在边界内怎么做，你能看清楚。

我们回头看看这几款 Agent，：

这些产品信任感的来源，靠每一次运行任务。

那 ChatGPT 的火又怎么解释？

你可能会挑战：“不对啊，ChatGPT 天天胡说拔道，Claude 也有幻觉，但大家不是照样在用？”

确实。

在轻度交互、工具型使用的场景里，用户的容忍度确实很高：

写个总结，先糊一版再说，反正要改；
起个标题，不满意就换，纯当炼丹呗；
写日报，没人细看，只求交差就行。

这些任务对准确性要求不高，AI 只是个搭手的 Copilot 。

人类参与多、控制权在自己手里，错了也能自己找齐。

但问题也在这：

只要人类需要频繁参与，那效率就起不来，质量也不稳定。

加上人的状态是波动的：

今天累了、感冒了、心情不好，甚至和谁吵了一架，都可能影响最后产出。

再加上工具还需要学习曲线，哪怕是一个小功能，能不能用起来、用得好，都要看个人的熟练度。

不同人用同一个 AI 工具，结果可能差得非常远。

这张图是很经典的人和 AI 的交互形态。

现在大部分人还停留在图中的第第一和第二阶段：嵌入阶段和 Copilot 阶段。

也就是：AI 给你建议，人类再手动决策、手动执行、手动收尾。

这些是有监督的 AI 交互， AI 干得再弱鸡，人类串流程能灵活处理完所有的异常。

但只要提及 AI 自动化流程，过程中没有人监督，最终的产物约等于交付物。

希望 AI 帮助人类真正提能增效的时候，一切就不一样了。

这时候用户不会关注创意程度，而会考虑：

“我能不能交作业？”

你值不值得被用户花钱，也取决于信任的折损率

最近很多 Agent 产品开始尝试商业化。

Lovart、天工、Flowith 开始使用积分机制…

Lovart 十刀约等于 1000 积分；

天工、Flowith 等十刀约等于10000积分。

然后按照任务复杂度、模型消耗计费。

这…不就是点券吗？？

既然点券付费，那每一个任务，就对应好了的价格。

比如 Lovart 平均每个任务大概 300 积分，就是 3 刀（人民币约 21.5 元）；

天工每个任务约500 积分，大概一刀（人民币 7.2 元）

这里不仅包括了货币的汇率，对于用户而言，还有产品能力的汇率。

虽然不同厂商的 AI Agent 计费方式（汇率）不同，但他们的 Agent 能力汇率也不同。

比如同样需求，同等汇率下， A 工具一次就能完成， B 工具要三次；那 B 工具的点券开销就是 A 的三倍。

对于国内消费水平来说，有点贵的，实在话。

因为许多用户还停留在看个视频都需要找闺蜜借会员的阶段…

让他花 7 块钱买一个 PPT，虽然不是不行，但除非你能证明他值得花这个钱。

这种游戏化的付费逻辑，本质上就是和用户对赌。

用户每点击一次开始，就是信任筹码下注。

如果 1 次生成能用，用户就愿意继续点；

如果 3 次都不行，用户可能就不点了；

大部分时候，用户不会把所有积分花完，他会在心里先下线这个工具。

并打上这个产品不能用的标签。

这个时候，再谈用户召回，就很难了。

所以，产品上线初期，哪怕体验模式，模型能力都得拉满。

不然用户流失之后，就真的失去了。

毕竟… 这么多 AI Agent 应用呢。

用谁不是用？

可见，这不是功能问题，是信任消失的问题。

不是你最终能否做到，而是你有没有给我信心再爱一次。

如果 AI 产品要收费做商业化，就等于你的产品力和用户需求对赌。

用户要用你完成一件重要的事，你能不能 Hold 住，

能不能被信任一次，

再被信任一次，

才能决定你在他心里能不能留下来。

五、不是入口，而是用户心智。

我们前面说了很多 Agent 的执行力和可信度。

但你要真想留下来，还得回答一个更现实的问题：

用户怎么开始第一次？

下一次他怎么记得住？不被别人截胡？

你跑得再稳、设计再好，如果没人点开你，那一切免谈。

这是我拆完这几款产品之后，越想越清楚的一件事：

很多 Agent 可能会死在用不上、想不到、记不住。

这也是为什么我把「使用频率」单独写进公式里：

产品价值 = 能力 × 信任 × 使用频率

工具再牛逼，用户再信任，使用频率低，或者入口深，不顺手…

这个乘法公式，一项为 0，结果就归零。

所以我现在更倾向这么看这个问题：

真正能留下来的 Agent，不一定天天被用，

但一定在该它上的时候，能被用户记起来，然后快速点开，不被别的应用截胡。

守得住地盘也是很重要的能力。

举个例子，当我在系统里拖拽一份文档的时候，ima 和豆包想着截胡文件解读权…

他们的 UI 还重叠着…

那一刻，我甚至有点想笑。

可以想见…接下来，就是各种产品的入口之争。

说不定，桌面端很可能会出现新一轮的入口大战。

所以你不但需要得到用户信任，绑定好动作，在用户出手前，得准备好承接。

那… 这岂不是流量为王，流量玩晒？

是不是没平台入口就没机会了？

这个问题我本来想给个理想主义的答案，但现实比这更残酷一点。

因为如果不能破圈，就没有流量；没有流量，你再好，也只有被大厂抄的命。

这个行业就是这样：

平台不挂你，你就进不了用户；

没人点开你，你连数据都积不出来；

大厂看见你做得不错，复制你流程、重写提示词、挂进他们的入口，成本几乎为零。

你产品效果好，别人跑得红，最后用户还是用红的。

因为红的最无脑，而且无脑的 70 分结果对很多用户而言，够了。

他们不需要你的 95 分的产品。

如果要创业，入口和能力同样重要。

在创业之前就要想明白：要么想办法快速起量，要么加入流量池。

不能想着酒香不怕巷子深。

没入口、没触点、没流量，你连跑一遍流程的资格都没有。

讲到这儿，最近一个视频我很认同…

你不红就是原罪，红了什么都对。

做得再踏实，没人看见，就是没人用；没人用，就是没用。

系统再完整，没流量触达，也只能活在 demo 里。

所以你要红，要卷视觉，要抓爆点，要造动图，要抢叙事窗口。

但红只是前提，接下来得活下去，所以要能跑流程、跑得起第二次、出错还能兜底。

这个行业已经不缺 AI 展示，而是缺真正能跑业务的 AI 。

红是运气，活下来才是实力。

写这一篇内容，其实没想给谁建议。

只是希望把自己的想法记录下来的碎碎念。

我现在再看 Agent，看的不是它有多强，

而是到底谁能留下来？

写到最后我只剩一个答案：

谁能被顺手用上，谁就多活一轮；
谁能不让我兜底，谁就值得再被试一次；
谁能把结果写进业务流程，谁就能慢慢变成系统里的一部分。

其他都是彩头。

这两年，IT行业面临经济周期波动与AI产业结构调整的双重压力，确实有很多运维与网络工程师因企业缩编或技术迭代而暂时失业。

很多人都在提运维网工失业后就只能去跑滴滴送外卖了，但我想分享的是，对于运维人员来说，即便失业以后仍然有很多副业可以尝试。

运维副业方向

运维，千万不要再错过这些副业机会！

第一个是知识付费类副业：输出经验打造个人IP

在线教育平台讲师

操作路径：在慕课网、极客时间等平台开设《CCNA实战》《Linux运维从入门到精通》等课程，或与培训机构合作录制专题课。
收益模式：课程销售分成、企业内训。

技术博客与公众号运营

操作路径：撰写网络协议解析、故障排查案例、设备评测等深度文章，通过公众号广告、付费专栏及企业合作变现。
收益关键：每周更新2-3篇原创，结合SEO优化与社群运营。

第二个是技术类副业：深耕专业领域变现

企业网络设备配置与优化服务

操作路径：为中小型企业提供路由器、交换机、防火墙等设备的配置调试、性能优化及故障排查服务。可通过本地IT服务公司合作或自建线上接单平台获客。
收益模式：按项目收费或签订年度维护合同。

远程IT基础设施代维

操作路径：通过承接服务器监控、日志分析、备份恢复等远程代维任务。适合熟悉Zabbix、ELK等技术栈的工程师。
收益模式：按工时计费或包月服务。

网络安全顾问与渗透测试

操作路径：利用OWASP Top 10漏洞分析、Nmap/BurpSuite等工具，为企业提供漏洞扫描、渗透测试及安全加固方案。需考取CISP等认证提升资质。
收益模式：单次渗透测试报告收费；长期安全顾问年费。

比如不久前跟我一起聊天的一个粉丝，他自己之前是大四实习的时候做的运维，发现运维7*24小时待命受不了，就准备转网安，学了差不多2个月，然后开始挖漏洞，光是补天的漏洞奖励也有个四五千，他说自己每个月的房租和饭钱就够了。

在这里插入图片描述

为什么我会推荐你网安是运维人员的绝佳副业&转型方向?

1.你的经验是巨大优势: 你比任何人都懂系统、网络和架构。漏洞挖掘、内网渗透、应急响应，这些核心安全能力本质上是“攻击视角下的运维”。你的运维背景不是从零开始，而是降维打击。

2.越老越吃香，规避年龄危机: 安全行业极度依赖经验。你的排查思路、风险意识和对复杂系统的理解能力，会随着项目积累而愈发珍贵，真正做到“姜还是老的辣”。

3.职业选择极其灵活: 你可以加入企业成为安全专家，可以兼职“挖洞“获取丰厚奖金，甚至可以成为自由顾问。这种多样性为你提供了前所未有的抗风险能力。

4.市场需求爆发，前景广阔: 在国家级政策的推动下，从一线城市到二三线地区，安全人才缺口正在急剧扩大。现在布局，正是抢占未来先机的黄金时刻。

在这里插入图片描述

运维转行学习路线

在这里插入图片描述

（一）第一阶段：网络安全筑基

1. 阶段目标

你已经有运维经验了，所以操作系统、网络协议这些你不是零基础。但要学安全，得重新过一遍——只不过这次我们是带着“安全视角”去学。

2. 学习内容

**操作系统强化：**你需要重点学习 Windows、Linux 操作系统安全配置，对比运维工作中常规配置与安全配置的差异，深化系统安全认知（比如说日志审计配置，为应急响应日志分析打基础）。

**网络协议深化：**结合过往网络协议应用经验，聚焦 TCP/IP 协议簇中的安全漏洞及防护机制，如 ARP 欺骗、TCP 三次握手漏洞等（为 SRC 漏扫中协议层漏洞识别铺垫）。

**Web 与数据库基础：**补充 Web 架构、HTTP 协议及 MySQL、SQL Server 等数据库安全相关知识，了解 Web 应用与数据库在网安中的作用。

**编程语言入门：**学习 Python 基础语法，掌握简单脚本编写，为后续 SRC 漏扫自动化脚本开发及应急响应工具使用打基础。

**工具实战：**集中训练抓包工具（Wireshark）、渗透测试工具（Nmap）、漏洞扫描工具（Nessus 基础版）的使用，结合模拟场景练习工具应用（掌握基础扫描逻辑，为 SRC 漏扫工具进阶做准备）。

（二）第二阶段：漏洞挖掘与 SRC 漏扫实战

1. 阶段目标

这阶段是真正开始“动手”了。信息收集、漏洞分析、工具联动，一样不能少。

熟练运用漏洞挖掘及 SRC 漏扫工具，具备独立挖掘常见漏洞及 SRC 平台漏扫实战能力，尝试通过 SRC 挖洞搞钱，不管是低危漏洞还是高危漏洞，先挖到一个。

2. 学习内容

信息收集实战：结合运维中对网络拓扑、设备信息的了解，强化基本信息收集、网络空间搜索引擎（Shodan、ZoomEye）、域名及端口信息收集技巧，针对企业级网络场景开展信息收集练习（为 SRC 漏扫目标筛选提供支撑）。

漏洞原理与分析：深入学习 SQL 注入、CSRF、文件上传等常见漏洞的原理、危害及利用方法，结合运维工作中遇到的类似问题进行关联分析（明确 SRC 漏扫重点漏洞类型）。

工具进阶与 SRC 漏扫应用：

系统学习 SQLMap、BurpSuite、AWVS 等工具的高级功能，开展工具联用实战训练；
专项学习 SRC 漏扫流程：包括 SRC 平台规则解读（如漏洞提交规范、奖励机制）、漏扫目标范围界定、漏扫策略制定（全量扫描 vs 定向扫描）、漏扫结果验证与复现；
实战训练：使用 AWVS+BurpSuite 组合开展 SRC 平台目标漏扫，练习 “扫描 - 验证 - 漏洞报告撰写 - 平台提交” 全流程。
SRC 实战演练：选择合适的 SRC 平台（如补天、CNVD）进行漏洞挖掘与漏扫实战，积累实战经验，尝试获取挖洞收益。

恭喜你，如果学到这里，你基本可以下班搞搞副业创收了，并且具备渗透测试工程师必备的「渗透技巧」、「溯源能力」，让你在黑客盛行的年代别背锅，工作实现升职加薪的同时也能开创副业创收！

如果你想要入坑黑客&网络安全，笔者给大家准备了一份：全网最全的网络安全资料包需要保存下方图片，微信扫码即可前往获取!

因篇幅有限，仅展示部分资料，需要点击下方链接即可前往获取

（三）第三阶段：渗透测试技能学习

1. 阶段目标

全面掌握渗透测试理论与实战技能，能够独立完成渗透测试项目，编写规范的渗透测试报告，具备渗透测试工程师岗位能力，为护网红蓝对抗及应急响应提供技术支撑。

2. 学习内容

渗透测试核心理论：系统学习渗透测试流程、方法论及法律法规知识，明确渗透测试边界与规范（与红蓝对抗攻击边界要求一致）。

实战技能训练：开展漏洞扫描、漏洞利用、电商系统渗透测试、内网渗透、权限提升（Windows、Linux）、代码审计等实战训练，结合运维中熟悉的系统环境设计测试场景（强化红蓝对抗攻击端技术能力）。

工具开发实践：基于 Python 编程基础，学习渗透测试工具开发技巧，开发简单的自动化测试脚本（可拓展用于 SRC 漏扫自动化及应急响应辅助工具）。

报告编写指导：学习渗透测试报告的结构与编写规范，完成多个不同场景的渗透测试报告撰写练习（与 SRC 漏洞报告、应急响应报告撰写逻辑互通）。

（四）第四阶段：企业级安全攻防（含红蓝对抗）、应急响应

1. 阶段目标

掌握企业级安全攻防、护网红蓝对抗及应急响应核心技能，考取网安行业相关证书。

2. 学习内容

护网红蓝对抗专项：

红蓝对抗基础：学习护网行动背景、红蓝对抗规则（攻击范围、禁止行为）、红蓝双方角色职责（红队：模拟攻击；蓝队：防御检测与应急处置）；
红队实战技能：强化内网渗透、横向移动、权限维持、免杀攻击等高级技巧，模拟护网中常见攻击场景；
蓝队实战技能：学习安全设备（防火墙、IDS/IPS、WAF）联动防御配置、安全监控平台（SOC）使用、攻击行为研判与溯源方法；
模拟护网演练：参与团队式红蓝对抗演练，完整体验 “攻击 - 检测 - 防御 - 处置” 全流程。
应急响应专项：
应急响应流程：学习应急响应 6 步流程（准备 - 检测 - 遏制 - 根除 - 恢复 - 总结），掌握各环节核心任务；
实战技能：开展操作系统入侵响应（如病毒木马清除、异常进程终止）、数据泄露应急处置、漏洞应急修补等实战训练；
工具应用：学习应急响应工具（如 Autoruns、Process Monitor、病毒分析工具）的使用，提升处置效率；
案例复盘：分析真实网络安全事件应急响应案例（如勒索病毒事件），总结处置经验。
其他企业级攻防技能：学习社工与钓鱼、CTF 夺旗赛解析等内容，结合运维中企业安全防护需求深化理解。

证书备考：针对网安行业相关证书考试内容（含红蓝对抗、应急响应考点）进行专项复习，参加模拟考试，查漏补缺。

运维转行网络攻防知识库分享

网络安全这行，不是会几个工具就能搞定的。你得有体系，懂原理，能实战。尤其是从运维转过来的，别浪费你原来的经验——你比纯新人强多了。

但也要沉得住气，别学了两天Web安全就觉得自己是黑客了。内网、域渗透、代码审计、应急响应，要学的还多着呢。

如果你真的想转，按这个路子一步步走，没问题。如果你只是好奇，我劝你再想想——这行要持续学习，挺累的，但也是真有意思。

关于如何学习网络安全，笔者也给大家整理好了全套网络安全知识库，需要的可以扫码获取！

因篇幅有限，仅展示部分资料，需要点击下方链接即可前往获取

1、网络安全意识
在这里插入图片描述

2、Linux操作系统
在这里插入图片描述

3、WEB架构基础与HTTP协议
在这里插入图片描述

4、Web渗透测试
在这里插入图片描述

5、渗透测试案例分享
在这里插入图片描述

6、渗透测试实战技巧
在这里插入图片描述

7、攻防对战实战
在这里插入图片描述

8、CTF之MISC实战讲解
在这里插入图片描述

关于如何学习网络安全，笔者也给大家整理好了全套网络安全知识库，需要的可以扫码获取！

因篇幅有限，仅展示部分资料，需要点击下方链接即可前往获取

北京朝阳AI社区

更多推荐

企业级AI智能体新技术架构完全指南：从框架到运行时，一篇搞定！

北京朝阳AI社区

多模态与智能体：学术界与产业界共话边缘智能新未来-2025安凯微电子开发者技术论

的圆桌讨论上，熵基科技股份有限公司董事长车全宏，深圳市慧为智能科技股份有限公司董事长李晓辉，厦门杉海智能技术有限公司总经理周大林，广州视声智能股份有限公司董事长朱湘军，上海殷泊信息科技有限公司创始人、CEO鲁为民博士，就多模态与智能体的应用落地面临的机遇与挑战提出了各自的观点或关注点。这5位产业界行业资深人士普遍认为，多模态大模型已经有了非常多的应用场景，但在专业化场景中还有很大的提升空间，数据会