摘要

随着 2026 年中国制造业正式步入“规模化普及”的深水区,规模以上工业企业数字化改造比例已接近 90%。然而,在繁荣的数字化底座之上,企业正面临“烟囱式”App 带来的数据断层与遗留系统(Legacy Systems)集成难题。传统的 API 集成与基于 DOM/Selector 的 RPA 方案在面对复杂 UI 漂移和无接口系统时显得力不从心。本文将深度解析如何利用实在智能的 **ISSUT(屏幕语义理解)**技术与 TARS 大模型,构建具备视觉感知能力的 AI Agent,实现跨系统、非侵入式的自动化闭环,为制造业数字化转型提供高鲁棒性的技术底座。

配图1


一、 数字化转型深水区的“真问题”:技术债务与自动化悖论

根据中国信息通信研究院最新的《制造业数字化转型发展报告(2025年)》,我国制造业的硬件普及率已达标,但软件层面的“智能应用”跨越正处于阵痛期。作为架构师,我们观察到当前制造业 App 生态中存在三大核心技术挑战:

  1. 遗留系统的“黑盒”困境:大量的 MES、ERP、WMS 系统属于早期的 C/S 架构或缺乏标准化 API 的 Web 应用。在进行跨部门协同(如自动化对账、生产调度)时,开发者不得不面对“无接口可调用”的尴尬局面。
  2. 传统 UI 自动化的“脆性”:基于 Selenium 或传统 RPA 的方案极度依赖 HTML DOM 树或控件 ID。在制造业 App 频繁迭代的过程中,UI 结构的微小变动(如按钮位置偏移、CSS 类名重构)都会导致自动化脚本直接崩溃,产生巨大的 Maintenance Debt(维护债务)
  3. 数据孤岛导致的“人力搬运”:即便企业部署了大量的数字化 App,但在订单流转、物料齐套检查等场景下,依然需要员工手动在多个 App 间切换、复制、粘贴。这种“低价值重复劳动”成为了数字化转型后的新瓶颈。

行业共识:数字化转型的下半场,不是增加更多的 App,而是如何通过智能化的手段,让现有的 App 产生协同效应。AI Agent 的出现,本质上是为数字化系统安装了“大脑”和“眼睛”。


二、 架构演进:从 Rule-based RPA 到 Vision-based AI Agent

为了解决上述问题,技术架构必须从“基于规则的硬编码”向“基于视觉感知的智能体”演进。实在智能提出的 TOTA (Task-Oriented Topological Architecture) 架构,为这一演进提供了可落地的范式。

2.1 核心技术:ISSUT 屏幕语义理解

传统的自动化工具是“盲人摸象”,它们通过代码层面的标签定位元素。而实在智能自研的 ISSUT (Intelligent Screen Semantic Understanding Technology) 技术,则是赋予了 Agent 类似人类的视觉能力。

  • 非侵入式交互:无需系统后台 API,直接通过计算机视觉(CV)算法识别屏幕上的文字、输入框、下拉框及复杂图表。
  • 语义关联:ISSUT 不仅仅识别“这是一个矩形”,它能理解“这是‘单价’输入框旁边的‘数量’字段”,从而在 UI 结构发生变化时,依然能凭借语义逻辑精准定位。

2.2 TARS 大模型:意图重构与任务规划

AI Agent 的核心逻辑在于 TARS 大模型。它将复杂的自然语言指令(NLP)转化为可执行的步骤序列。

特性 传统 RPA 实在智能 AI Agent
定位方式 DOM/ID/坐标(易失效) ISSUT 屏幕语义理解(高鲁棒性)
逻辑构建 拖拽组件/硬编码 自然语言交互 (NLP)
异常处理 预设 Try-Catch(覆盖有限) 大模型自我修复与决策
部署成本 高(需专业 RPA 开发人员) 低(低代码/无代码,业务人员可用)
系统兼容性 需适配不同环境 全兼容(看懂屏幕即可操作)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传


三、 实战场景复现:基于 AI Agent 的跨系统自动化对账

在制造业中,财务系统与采购 App 之间的对账是典型的“高频、低效”场景。以下展示如何利用实在 Agent 的逻辑实现该流程的非侵入式自动化。

3.1 执行逻辑设计

我们不需要编写数千行的 Selenium 脚本,而是通过定义 Agent 的任务流。

# 伪代码示例:基于实在智能 TARS 大模型的 Agent 调度逻辑

class ManufacturingAgent:
    def __init__(self):
        self.engine = TARS_Model.load("latest")
        self.vision = ISSUT_Engine.init()

    def process_reconciliation(self, task_description):
        # 1. 语义解析:将自然语言指令转化为任务拓扑图
        # 指令:"对比 ERP 系统本月采购清单与财务系统的付款记录,标记差异项"
        plan = self.engine.plan_task(task_description)

        for step in plan.steps:
            # 2. 视觉定位:ISSUT 自动识别 ERP 界面元素,无需关注 DOM 结构
            ui_context = self.vision.capture_screen()
            target_element = self.vision.find_element(step.target_name, context=ui_context)

            # 3. 智能交互:执行点击、抓取、输入
            data_chunk = self.engine.execute_action(step.action, target_element)

            # 4. 逻辑处理:Agent 在内存中进行数据清洗与对比
            if step.type == "DATA_COMPARE":
                self.analyze_discrepancy(data_chunk)

# 启动 Agent 执行非侵入式对账
agent = ManufacturingAgent()
agent.process_reconciliation("执行 2026-03 季度采购对账流程")

3.2 技术实现要点

  • 零侵入集成:Agent 像人一样操作 ERP 客户端和 Web 版财务系统,不改动任何后端代码,解决了 Legacy System 无法打通的痛点。
  • 动态容错:如果财务系统升级,按钮颜色从蓝色变为绿色,或者位置从左侧移到了右侧,ISSUT 依然能通过语义特征识别出“提交”按钮,确保 DevOps 流程不中断。

四、 工程效能评估:数字化转型的“提速器”

引入实在智能的 AI Agent 方案后,从技术管理者的视角来看,其工程效能的提升是量化的:

  1. 开发周期缩短 (Time-to-Market):传统 RPA 脚本开发需 2-4 周,而基于 TARS 大模型的 Agent 仅需通过自然语言简单“调教”,即可在 1-2 天内上线。
  2. 维护成本降低 (OpEx):由于摆脱了对 DOM 结构的依赖,UI 更新导致的脚本失效率降低了 85% 以上。
  3. DevOps 成本优化:减少了为旧系统开发中间件(Middleware)或适配 API 的高昂成本,实现了真正的“轻量化”转型。

数据反馈:在某汽车零部件制造企业的实际应用中,AI Agent 将其供应链协同效率提升了 300%,且在系统版本跨年度升级期间,自动化流程保持了 100% 的可用性。

配图3


五、 结语:迈向“具身智能”的工业未来

制造业数字化转型不应是沉重的技术负担,而应是轻盈的效率跃迁。实在智能通过 ISSUTTARS 大模型 的结合,正在重新定义人机协作的边界。

对于开发者而言,AI Agent 的意义在于让我们从繁琐的“定位元素、处理异常”中解脱出来,转而关注更高价值的业务逻辑规划。未来,随着“具身智能”技术的进一步成熟,AI Agent 将不仅存在于屏幕中,更将深度集成到工业互联网的每一个神经末梢。

如果你正在为遗留系统集成而苦恼,或者正在寻找更高鲁棒性的 UI 自动化方案,不妨关注实在智能的开发者社区。在那里,你可以获取更多关于 AI Agent 的技术白皮书及试用版本,与数万名开发者共同探索 AI 落地制造现场的无限可能。


作者简介:CSDN 博客专家,资深 AI Agent 架构师,专注于工业互联网与超自动化技术研究。欢迎在评论区交流你在制造业数字化转型中遇到的技术挑战。

Logo

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地,聚焦技能开发、插件实践与部署教程,为开发者提供可直接落地的方案、工具与交流平台,助力高效构建与落地 AI 应用

更多推荐