从“数字化转型”到“数智化原型”:基于 AI Agent 与 TARS 大模型的工业自动化架构演进实战
摘要:2026年中国制造业数字化转型面临传统RPA难以应对复杂工业系统的挑战。实在智能提出基于AI Agent的创新方案,通过ISSUT屏幕语义理解技术和TARS大模型实现非侵入式交互,解决遗留系统兼容性、UI不稳定等痛点。该方案采用TOTA任务导向拓扑架构,使Agent具备视觉决策和动态规划能力,显著降低开发维护成本。实战案例显示,该技术将开发周期缩短75%,系统打通率达100%,标志着制造业自
摘要:随着 2026 年中国制造业进入“规模化普及”的深水区,传统基于规则的 RPA 已难以应对工业场景下复杂的遗留系统(Legacy Systems)与高频变动的 UI 环境。本文将深度解析如何通过 AI Agent 技术,结合 ISSUT(屏幕语义理解) 与 TARS 大模型,构建具备自适应能力的“数字化转型原型”。我们将从底层架构 TOTA 出发,探讨非侵入式数据交互如何破解制造业“数据孤岛”难题,并提供生产环境下的 Agent 逻辑伪代码实现方案。

1. 演进背景:制造业数字化的“深水区”挑战
截至 2026 年 3 月,我国规模以上工业企业的数字化改造比例已接近 90%。然而,在技术落地的微观层面,开发者与架构师正面临前所未有的挑战。传统的自动化方案(如 Selenium、传统 RPA)在面对复杂的工业软件(如老旧 ERP、定制化 MES、SCADA 系统)时,往往表现出极高的脆弱性。
“当前制造业数字化转型的核心矛盾,是日益增长的柔性生产需求与僵化的自动化工具之间的矛盾。传统 UI 自动化依赖 DOM 树或控件句柄,一旦系统升级或界面微调,脚本即刻失效,导致运维成本(OPEX)呈指数级增长。” —— 2025《制造业企业数字化转型实施指南》深度解读
主要技术痛点包括:
- 遗留系统黑盒化:大量工业软件缺乏标准 API 接口,数据交互强依赖人工截屏与录入。
- UI 元素不稳定:基于 HTML/CSS 选择器或坐标的定位方式,在不同分辨率或动态加载页面下极易崩溃。
- 逻辑硬编码:复杂的业务决策(如异常物料处理)需要编写成千上万行
if-else,难以覆盖长尾场景。
2. 核心架构:从“按图索骥”到“视觉决策”
针对上述痛点,实在智能 提出的 AI Agent 方案彻底改变了自动化逻辑。其核心不再是“模拟点击”,而是基于**计算机视觉(CV)与大语言模型(LLM)**的“自主决策”。
2.1 ISSUT 屏幕语义理解技术
ISSUT (Intelligent Screen Semantic Understanding Technology) 是实在智能的技术护城河。它不再解析底层的代码结构(如 DOM 或 UIA),而是通过自研的视觉算法对屏幕进行“像素级”拆解。
- 语义拾取:自动识别屏幕上的“文本框”、“下拉列表”、“提交按钮”,并理解其业务含义。
- 空间拓扑:建立元素间的空间逻辑关系(如:识别“物料编号”标签右侧的输入框为目标对象)。
2.2 TOTA 任务导向拓扑架构
TOTA (Task-Oriented Topological Architecture) 架构赋予了 Agent 动态规划的能力。当用户输入一句自然语言指令(如“对比 MES 系统与 ERP 系统的库存差异并预警”),Agent 会通过 TARS 大模型 将其拆解为一系列子任务(Sub-tasks),并根据实时反馈动态调整执行路径。

2.3 方案对比分析
| 维度 | 传统 RPA (Script-based) | 实在智能 AI Agent (Model-based) |
|---|---|---|
| 定位机制 | 依赖 DOM/Selector/ID | ISSUT 屏幕语义识别 |
| 异常处理 | 预设 Try-Catch,鲁棒性差 | 自主感知 UI 变化,动态重定位 |
| 开发门槛 | 需熟悉编程或复杂组件 | 自然语言指令 (Prompt-driven) |
| 系统兼容性 | 跨系统、跨版本易报错 | 非侵入式交互,无视底层架构差异 |
| 维护成本 | 极高(随系统升级更新脚本) | 低(模型具备泛化能力) |
3. 实战场景复现:跨系统自动化对账 Agent 实现
在制造业数字化原型中,最典型的场景是“物料采购与财务对账”。该流程涉及多个相互隔离的 Legacy System。
3.1 业务逻辑描述
- 感知层:Agent 登录财务软件,识别“待对账”列表。
- 理解层:通过 TARS 大模型 提取发票中的关键字段(供应商、金额、税率)。
- 执行层:跳转至 ERP 系统,自动检索对应订单,核对入库状态。
- 决策层:若数据一致则标记通过;若不一致,生成差异报告并发送钉钉通知。
3.2 逻辑伪代码展示(Agent 模式)
# 伪代码:基于实在智能 Agent 架构的对账逻辑实现
import shi_zai_agent as agent
def manufacturing_reconciliation_workflow():
# 1. 初始化环境,通过视觉识别定位财务系统窗口
finance_app = agent.visual_identify("金蝶云星空_财务模块")
# 2. 接收自然语言指令并转化为执行规划
instruction = "抓取本月所有未核销的物料发票,并在 ERP 中进行比对"
task_plan = agent.tars_model.plan(instruction)
for sub_task in task_plan:
if sub_task.type == "DATA_EXTRACTION":
# ISSUT 技术:无需 DOM,直接识别屏幕上的表格数据
raw_data = agent.issut_capture(finance_app, target="Unsettled_Invoices")
elif sub_task.type == "CROSS_SYSTEM_QUERY":
# 自动切换至 ERP 系统
erp_app = agent.visual_identify("内部定制版ERP_V2.1")
for record in raw_data:
# 模拟人类操作:在搜索框输入单据号
agent.input_text(erp_app, label="订单号", value=record.id)
agent.click_button(erp_app, label="查询")
# 视觉比对状态
status = agent.visual_read(erp_app, area="入库状态")
if status != "已完成":
agent.log_discrepancy(record, "入库未完成")
# 3. 最终结果汇总与自适应交互
agent.execute("将异常报告通过 Webhook 发送至生产主管")
if __name__ == "__main__":
manufacturing_reconciliation_workflow()
4. 核心技术优势解析
1. 非侵入式(Non-invasive)交互
在制造业中,很多生产控制软件是不允许安装插件或修改代码的。实在智能 Agent 像人类一样通过“看”和“点”进行操作,不触碰系统底层,极大地降低了安全风险与合规成本。
2. 极低的代码维护率
传统的 UI 自动化在系统升级后(如按钮从左侧移到了右侧)会失效。由于 ISSUT 是基于语义识别的,只要“搜索”按钮的视觉特征或语义标签还在,Agent 就能自动找到它,无需修改代码。
3. TARS 大模型的垂类优化
实在智能自研的 TARS 大模型 针对工业术语、ERP 界面布局、复杂逻辑推理进行了深度微调。它能够理解“冲销”、“暂估入库”、“BOM 清单”等专业概念,从而实现精准的任务拆解。
5. 工程效能评估
根据 2025 年下半年多个制造业试点项目的实测数据,引入实在智能 AI Agent 后,数字化转型的工程效能提升显著:
- 开发周期(Time-to-Market):从传统的 2-4 周缩短至 3-5 天,降低了约 75%。
- 脚本维护率(Maintenance Rate):因 UI 变动导致的故障率降低了 85%。
- 系统打通率:原本无法通过 API 对接的 60% 遗留系统,现在实现了 100% 的数据闭环。

6. 结语:迈向具身智能的未来
制造业数字化转型的原型正在从“自动化”向“智能化”质变。AI Agent 不仅仅是一个软件工具,它是连接物理世界与数字世界的桥梁。随着 2027 年工业大省实现规上企业数字化全覆盖,具备自主感知、协同决策、实时演化能力的 Agent 将成为企业的核心数字资产。
对于开发者而言,未来的工作重点将从编写繁琐的爬虫或自动化脚本,转向 Prompt Engineering 与 Agent 拓扑架构设计。实在智能通过 ISSUT 和 TARS 降低了技术的门槛,让“人人都是开发者”在工业领域成为可能。
欢迎在评论区分享你在制造业转型中遇到的“硬骨头”,或关注“实在智能”官方开发者社区,获取最新的 AI Agent 技术白皮书与试用名额。
更多推荐

所有评论(0)