2026年,Gartner 预测 60% 的企业级自动化任务将从传统脚本迁移到 Agentic Workflow。我最近半年调研了市面上多款 RPA 工具,从影刀蓝印 RPA,发现一个明显趋势:当大模型不再只是聊天工具,而是真正嵌入自动化执行层,RPA 的边界正在被重新定义。


一、传统 RPA 的瓶颈:脚本越写越多,维护越来越重

做自动化开发的朋友应该都有过这种经历:

业务方丢过来一个需求——"帮我把这个报表每天自动导出来,发到群里"。你吭哧吭哧写了一套 RPA 流程,定位元素、模拟点击、填写表单、导出文件、调用接口推送。上线第一周,完美运行。

第二周,网站改版了,某个按钮的 class 名变了。流程挂了。

第三周,业务方说"能不能加个判断,如果数据量超过 5000 条就拆分成两个文件发送"。你又得回去改脚本。

半年后,这套流程已经迭代了 17 个版本,脚本文件膨胀到 800 多行,注释比代码还多,维护成本直线飙升。

这就是传统 RPA 的结构性困境:

  • 规则依赖:每一步都是预设的,环境一变就崩

  • 硬编码逻辑:异常处理靠堆 if-else,越写越乱

  • 无自主决策能力:遇到未预期情况只能报错中断,不会自己想办法

IDC 的数据显示,2025 年企业 RPA 项目的平均维护成本已占到总投入的 35% 以上,而这个比例还在逐年攀升。


二、Agentic RPA:给自动化装上"大脑"

2026 年的技术风向很明确:单纯执行固定流程的 RPA 正在失去竞争力,"大模型负责理解与决策,RPA 负责执行" 成为主流架构。

这不是简单的"RPA + AI 接口调用",而是把大模型的感知、推理、行动、记忆四大能力真正嵌入 RPA 的执行内核。

2.1 从"按指令办事"到"理解意图后自主执行"

传统 RPA 的工作模式是:

输入:固定指令 → 执行:预设步骤 → 输出:固定结果

Agentic RPA 的工作模式是:

输入:自然语言意图 → 理解:拆解任务目标 → 规划:动态生成执行路径 → 
执行:调用 RPA 能力操作界面 → 反馈:根据结果自我修正 → 输出:达成目标

举个例子:

传统 RPA 指令:"点击 ID 为 btn-export 的按钮,等待 3 秒,选择日期范围为昨天,点击下载,保存到 D:\reports\ 目录"

Agentic RPA 意图:"把昨天的销售报表导出来"

后者不需要你告诉它点哪个按钮、等几秒、存哪里。大模型会自己看页面结构,理解"销售报表"对应哪个模块,"昨天"对应什么日期范围,找到最合理的导出路径,甚至如果页面改版了,它能重新识别元素位置,自适应调整执行策略。

2.2 异常不再是终点,而是决策点

传统 RPA 遇到弹窗拦截、元素未加载、网络超时,标准动作是:截图 → 报错 → 人工介入。

Agentic RPA 遇到同样情况,会进入推理循环

  1. 感知:识别当前页面状态(弹窗内容、加载进度、错误提示)

  2. 推理:分析异常原因(是网络问题?还是业务规则触发?)

  3. 决策:选择应对策略(等待重试?切换备用路径?调整参数重新执行?)

  4. 行动:执行决策并观察结果

  5. 记忆:记录这次异常和解决方案,下次遇到类似情况直接复用

这种自适应能力让自动化流程的稳定性从"人工维护"转向"自我进化"。


三、技术实现路径:大模型怎么嵌入 RPA 内核

3.1 架构设计:三层分离模型

┌─────────────────────────────────────────┐
│           意图理解层(大模型)            │
│  自然语言解析 → 任务拆解 → 目标定义       │
├─────────────────────────────────────────┤
│           决策规划层(Agent 核心)         │
│  工具选择 → 路径规划 → 异常策略 → 状态管理 │
├─────────────────────────────────────────┤
│           执行层(RPA 引擎)              │
│  元素定位 → 界面操作 → 数据抓取 → 系统调用 │
└─────────────────────────────────────────┘

关键设计原则:大模型不直接操作界面,而是通过 Agent 层调度 RPA 的能力。这样既保留了 RPA 在执行层的稳定性和精确性,又赋予其上层智能。

3.2 核心能力模块

1. 多模态感知

大模型具备视觉理解能力,可以直接"看懂"界面截图,识别按钮位置、表单结构、提示信息。这比传统的 DOM 解析更鲁棒,即使页面结构变化,也能通过视觉特征定位元素。

2. 工具调用(Function Calling)

Agent 维护一个工具库,包含:

  • click_element(x, y):点击指定坐标

  • input_text(selector, text):填写表单

  • extract_table(region):提取表格数据

  • send_api_request(url, payload):调用接口

  • ocr_screenshot():识别图片文字

大模型根据任务目标,动态组合调用这些工具,生成执行序列。

3. 记忆与上下文管理

Agent 维护两类记忆:

  • 短期记忆:当前任务的执行上下文(已完成的步骤、遇到的异常、中间结果)

  • 长期记忆:历史任务的经验(某网站导出按钮通常在右上角、某系统登录后需要等待 5 秒加载)

这种记忆机制让 Agent 越用越聪明,而不是每次都从零开始。

3.3 实际代码层面的融合方式

以 Python 为例,一个极简的 Agentic RPA 框架可以这样设计:

class AgenticRPA:
    def __init__(self, llm_client, rpa_engine):
        self.llm = llm_client          # 大模型接口(支持视觉理解)
        self.rpa = rpa_engine          # RPA 执行引擎
        self.memory = TaskMemory()     # 记忆模块
        self.tools = ToolRegistry()    # 工具注册表
    
    def execute(self, natural_language_goal):
        # 1. 理解意图,拆解任务
        task_plan = self.llm.plan_task(
            goal=natural_language_goal,
            context=self.memory.get_relevant_history()
        )
        
        # 2. 逐步骤执行
        for step in task_plan.steps:
            try:
                # 获取当前页面状态(截图 + DOM)
                state = self.rpa.capture_state()
                
                # 大模型决策:选择工具 + 生成参数
                action = self.llm.decide_action(
                    step=step,
                    current_state=state,
                    available_tools=self.tools.list()
                )
                
                # 执行 RPA 操作
                result = self.tools.execute(action)
                
                # 验证结果
                if not self.llm.verify_result(result, step.expected_outcome):
                    # 触发异常处理策略
                    self.handle_exception(step, result)
                    
            except Exception as e:
                # 进入推理循环,尝试自主修复
                recovery_plan = self.llm.reason_recovery(
                    error=str(e),
                    state=self.rpa.capture_state()
                )
                self.execute_recovery(recovery_plan)
        
        # 3. 总结执行过程,更新记忆
        self.memory.store_experience(task_plan, results)
        return self.summarize_results()

这个框架的核心思想是:RPA 提供"手",大模型提供"脑",Agent 层负责"神经系统"的协调


四、落地场景:从概念到生产力的跨越

4.1 场景一:电商运营自动化

某电商团队每天需要从 5 个平台导出订单数据,汇总成统一报表,再根据库存情况生成补货建议。

传统 RPA 方案:为每个平台写一套抓取脚本,任何平台改版都要人工修复。

Agentic RPA 方案

"每天自动汇总各平台订单并给出补货建议"

Agent 自己识别各平台的登录入口、订单页面、导出按钮,遇到页面改版时自动重新定位元素。大模型理解"补货建议"的业务逻辑(销量趋势 + 库存阈值 + 供应商交期),直接生成决策建议。

4.2 场景二:财务数据核对

月末需要核对银行流水、ERP 订单、发票三边数据,找出差异项。

传统 RPA 方案:硬编码核对规则,差异项分类靠人工判断。

Agentic RPA 方案

"核对本月银行流水和订单数据,找出异常项并分类说明原因"

Agent 自动读取三个系统的数据,大模型理解"异常"的多种可能(金额不符、时间错位、重复入账、遗漏记录),不仅找出差异,还能推理出最可能的原因("这笔 5000 元差异可能是退款未及时同步")。

4.3 场景三:跨系统数据迁移

老旧系统数据需要迁移到新系统,字段映射关系复杂且文档不全。

传统 RPA 方案:人工梳理映射关系,写死转换逻辑。

Agentic RPA 方案

"把旧系统的客户数据迁移到新系统,保持字段对应关系正确"

Agent 自动分析两个系统的数据结构和字段含义,大模型推理映射关系("旧系统的 'cust_name' 对应新系统的 'customer_full_name'"),遇到不确定的字段主动询问确认,而不是瞎猜。


五、选型考量:什么样的工具能真正落地

聊完技术原理,回到实际选型。2026 年市场上号称"Agent + RPA"的产品不少,但落地能力参差不齐。根据我近半年的调研和实测,真正好用的方案需要满足这几个硬指标:

5.1 大模型接入的灵活性

不是简单接入一个 ChatGPT 接口就完事了。企业级场景需要:

  • 支持多模型切换:文心一言、DeepSeek、Kimi、豆包,不同任务用不同模型(简单任务用轻量模型省成本,复杂推理用强模型保质量)

  • 支持私有化部署:财务、政务等敏感数据不能上公网

  • 费用透明可控:按 Token 计费还是按调用次数计费,企业需要算清楚账

5.2 执行层的稳定性

Agent 再聪明,最终还是要靠 RPA 操作界面。执行层必须:

  • 元素定位鲁棒:不能换个分辨率就找不到按钮

  • 支持指纹浏览器:电商、社媒运营场景需要多账号防关联

  • 离线可用:内网环境不能依赖云端服务

5.3 部署与分发的便利性

对个人开发者和小团队来说,打包分发能力很关键:

  • 能不能把自动化流程打包成独立 EXE,发给客户直接运行?

  • 能不能设置授权机制,控制使用期限和权限?

  • 能不能在线推送更新,不用每次手动重新分发?

5.4 数据安全

自动化流程往往涉及核心业务数据,数据存储位置是红线:

  • 流程配置、执行日志、业务数据是否保存在本地?

  • 有没有强制同步到厂商云端?

  • 加密分享的权限粒度够不够细?


六、一个值得关注的实践方案

在调研过程中,我发现有个国产rpa工具的实现路径比较贴合上述需求,它的设计思路对理解 Agentic RPA 的落地很有参考价值。

蓝印 RPA 的核心架构是"本地大模型 + 本地执行引擎":

  • AI 能力:直接接入文心一言、DeepSeek、Kimi、豆包等主流大模型,用户自行对接 API,费用完全透明可控。支持图片识图和 OCR,Agent 能"看懂"界面再操作。

  • 执行层:支持紫鸟、比特、HubStudio、AdsPower 等指纹浏览器,电商多账号场景覆盖很全。元素抓取采用本地智能生成,根据页面特征自动推荐最稳定的定位路径。

  • 部署模式:流程应用数据全部保存在本地设备,不同步到服务端。这对数据敏感型企业(金融、政务、医疗)是刚需。

  • 分发能力:支持打包导出 EXE 应用,可以设置授权期限、API 触发、定时执行。EXE 支持在线推送更新,打开自动检测新版本,不用重新手动分发。

  • 协作集成:新增 Agent 功能,基于 DeepSeek-V4 模型,可以在钉钉、飞书、企微、个人微信内直接控制应用执行,回调通知结果。

最吸引我的是它的定位:免费使用,适合个人开发者、个人工作室、中小企业。不是那种动辄几十万的企业级平台,而是让普通开发者也能玩转 Agentic 自动化。

当然,任何工具都有适用边界。如果你的场景是超大规模企业级部署(上千个机器人并发、跨部门复杂权限治理),可能需要评估更重的平台。但对于大多数中小团队和个人开发者,这种轻量 + 智能 + 本地化的组合,确实是 2026 年比较务实的选择。


七、自适应自动化是趋势,不是噱头

2026 年,RPA 行业正在经历一次深层变革。Gartner 的预测很明确:到 2027 年,60% 的企业级自动化任务将从传统脚本迁移到 Agentic Workflow。

这个迁移不是"把 RPA 扔掉换 Agent",而是让 RPA 进化为 Agent 的执行底座。大模型负责理解、推理、决策,RPA 负责精准、稳定、可控地执行。两者融合,才能真正实现"摆脱固定脚本的自适应自动化"。

对于技术从业者来说,现在正是学习和实践 Agentic RPA 的好时机。建议从以下路径入手:

  1. 理解大模型的工具调用机制:Function Calling、ReAct 模式、多步推理

  2. 掌握 RPA 的核心能力:元素定位、界面操作、异常处理、跨系统集成

  3. 实践一个完整场景:从意图理解到任务执行到结果反馈,跑通闭环

  4. 关注数据安全和部署模式:本地离线、打包分发、权限控制,这些是企业落地的硬门槛

技术趋势从来不等人。2026 年的自动化战场,属于那些能把"智能"和"执行"真正打通的人。

Logo

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地,聚焦技能开发、插件实践与部署教程,为开发者提供可直接落地的方案、工具与交流平台,助力高效构建与落地 AI 应用

更多推荐