摘要:随着 2026 年中国制造业进入“规模化普及”的深水区,传统基于规则的 RPA 已难以应对工业场景下复杂的遗留系统(Legacy Systems)与高频变动的 UI 环境。本文将深度解析如何通过 AI Agent 技术,结合 ISSUT(屏幕语义理解)TARS 大模型,构建具备自适应能力的“数字化转型原型”。我们将从底层架构 TOTA 出发,探讨非侵入式数据交互如何破解制造业“数据孤岛”难题,并提供生产环境下的 Agent 逻辑伪代码实现方案。

配图1

1. 演进背景:制造业数字化的“深水区”挑战

截至 2026 年 3 月,我国规模以上工业企业的数字化改造比例已接近 90%。然而,在技术落地的微观层面,开发者与架构师正面临前所未有的挑战。传统的自动化方案(如 Selenium、传统 RPA)在面对复杂的工业软件(如老旧 ERP、定制化 MES、SCADA 系统)时,往往表现出极高的脆弱性。

“当前制造业数字化转型的核心矛盾,是日益增长的柔性生产需求与僵化的自动化工具之间的矛盾。传统 UI 自动化依赖 DOM 树或控件句柄,一旦系统升级或界面微调,脚本即刻失效,导致运维成本(OPEX)呈指数级增长。” —— 2025《制造业企业数字化转型实施指南》深度解读

主要技术痛点包括:

  • 遗留系统黑盒化:大量工业软件缺乏标准 API 接口,数据交互强依赖人工截屏与录入。
  • UI 元素不稳定:基于 HTML/CSS 选择器或坐标的定位方式,在不同分辨率或动态加载页面下极易崩溃。
  • 逻辑硬编码:复杂的业务决策(如异常物料处理)需要编写成千上万行 if-else,难以覆盖长尾场景。

2. 核心架构:从“按图索骥”到“视觉决策”

针对上述痛点,实在智能 提出的 AI Agent 方案彻底改变了自动化逻辑。其核心不再是“模拟点击”,而是基于**计算机视觉(CV)大语言模型(LLM)**的“自主决策”。

2.1 ISSUT 屏幕语义理解技术

ISSUT (Intelligent Screen Semantic Understanding Technology) 是实在智能的技术护城河。它不再解析底层的代码结构(如 DOM 或 UIA),而是通过自研的视觉算法对屏幕进行“像素级”拆解。

  • 语义拾取:自动识别屏幕上的“文本框”、“下拉列表”、“提交按钮”,并理解其业务含义。
  • 空间拓扑:建立元素间的空间逻辑关系(如:识别“物料编号”标签右侧的输入框为目标对象)。
2.2 TOTA 任务导向拓扑架构

TOTA (Task-Oriented Topological Architecture) 架构赋予了 Agent 动态规划的能力。当用户输入一句自然语言指令(如“对比 MES 系统与 ERP 系统的库存差异并预警”),Agent 会通过 TARS 大模型 将其拆解为一系列子任务(Sub-tasks),并根据实时反馈动态调整执行路径。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

2.3 方案对比分析
维度 传统 RPA (Script-based) 实在智能 AI Agent (Model-based)
定位机制 依赖 DOM/Selector/ID ISSUT 屏幕语义识别
异常处理 预设 Try-Catch,鲁棒性差 自主感知 UI 变化,动态重定位
开发门槛 需熟悉编程或复杂组件 自然语言指令 (Prompt-driven)
系统兼容性 跨系统、跨版本易报错 非侵入式交互,无视底层架构差异
维护成本 极高(随系统升级更新脚本) 低(模型具备泛化能力)

3. 实战场景复现:跨系统自动化对账 Agent 实现

在制造业数字化原型中,最典型的场景是“物料采购与财务对账”。该流程涉及多个相互隔离的 Legacy System。

3.1 业务逻辑描述
  1. 感知层:Agent 登录财务软件,识别“待对账”列表。
  2. 理解层:通过 TARS 大模型 提取发票中的关键字段(供应商、金额、税率)。
  3. 执行层:跳转至 ERP 系统,自动检索对应订单,核对入库状态。
  4. 决策层:若数据一致则标记通过;若不一致,生成差异报告并发送钉钉通知。
3.2 逻辑伪代码展示(Agent 模式)
# 伪代码:基于实在智能 Agent 架构的对账逻辑实现
import shi_zai_agent as agent

def manufacturing_reconciliation_workflow():
    # 1. 初始化环境,通过视觉识别定位财务系统窗口
    finance_app = agent.visual_identify("金蝶云星空_财务模块")

    # 2. 接收自然语言指令并转化为执行规划
    instruction = "抓取本月所有未核销的物料发票,并在 ERP 中进行比对"
    task_plan = agent.tars_model.plan(instruction)

    for sub_task in task_plan:
        if sub_task.type == "DATA_EXTRACTION":
            # ISSUT 技术:无需 DOM,直接识别屏幕上的表格数据
            raw_data = agent.issut_capture(finance_app, target="Unsettled_Invoices")

        elif sub_task.type == "CROSS_SYSTEM_QUERY":
            # 自动切换至 ERP 系统
            erp_app = agent.visual_identify("内部定制版ERP_V2.1")
            for record in raw_data:
                # 模拟人类操作:在搜索框输入单据号
                agent.input_text(erp_app, label="订单号", value=record.id)
                agent.click_button(erp_app, label="查询")

                # 视觉比对状态
                status = agent.visual_read(erp_app, area="入库状态")
                if status != "已完成":
                    agent.log_discrepancy(record, "入库未完成")

    # 3. 最终结果汇总与自适应交互
    agent.execute("将异常报告通过 Webhook 发送至生产主管")

if __name__ == "__main__":
    manufacturing_reconciliation_workflow()

4. 核心技术优势解析

1. 非侵入式(Non-invasive)交互
在制造业中,很多生产控制软件是不允许安装插件或修改代码的。实在智能 Agent 像人类一样通过“看”和“点”进行操作,不触碰系统底层,极大地降低了安全风险与合规成本。

2. 极低的代码维护率
传统的 UI 自动化在系统升级后(如按钮从左侧移到了右侧)会失效。由于 ISSUT 是基于语义识别的,只要“搜索”按钮的视觉特征或语义标签还在,Agent 就能自动找到它,无需修改代码。

3. TARS 大模型的垂类优化
实在智能自研的 TARS 大模型 针对工业术语、ERP 界面布局、复杂逻辑推理进行了深度微调。它能够理解“冲销”、“暂估入库”、“BOM 清单”等专业概念,从而实现精准的任务拆解。

5. 工程效能评估

根据 2025 年下半年多个制造业试点项目的实测数据,引入实在智能 AI Agent 后,数字化转型的工程效能提升显著:

  • 开发周期(Time-to-Market):从传统的 2-4 周缩短至 3-5 天,降低了约 75%
  • 脚本维护率(Maintenance Rate):因 UI 变动导致的故障率降低了 85%
  • 系统打通率:原本无法通过 API 对接的 60% 遗留系统,现在实现了 100% 的数据闭环。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

6. 结语:迈向具身智能的未来

制造业数字化转型的原型正在从“自动化”向“智能化”质变。AI Agent 不仅仅是一个软件工具,它是连接物理世界与数字世界的桥梁。随着 2027 年工业大省实现规上企业数字化全覆盖,具备自主感知、协同决策、实时演化能力的 Agent 将成为企业的核心数字资产。

对于开发者而言,未来的工作重点将从编写繁琐的爬虫或自动化脚本,转向 Prompt EngineeringAgent 拓扑架构设计。实在智能通过 ISSUTTARS 降低了技术的门槛,让“人人都是开发者”在工业领域成为可能。

欢迎在评论区分享你在制造业转型中遇到的“硬骨头”,或关注“实在智能”官方开发者社区,获取最新的 AI Agent 技术白皮书与试用名额。

Logo

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地,聚焦技能开发、插件实践与部署教程,为开发者提供可直接落地的方案、工具与交流平台,助力高效构建与落地 AI 应用

更多推荐