自动化技术的演进与现状
在数字化转型的浪潮中,自动化技术已经从简单的脚本执行发展为具备智能决策能力的复杂系统。根据Gartner最新报告,到2025年,超过70%的企业将在其业务流程中采用某种形式的AI驱动自动化。这种转变不仅提高了效率,更重要的是赋予了自动化系统前所未有的适应性和创造力。
传统自动化工具虽然能够完成重复性任务,但面对动态变化的网页元素、复杂的用户交互场景时往往力不从心。这正是AI技术可以大显身手的地方——通过机器学习算法理解上下文,做出智能决策,并实时调整执行策略。
传统自动化VS智能自动化
流程图
传统自动化
智能自动化
各自特点
维度 |
传统自动化 |
智能自动化 |
元素定位 |
精确选择器匹配 |
视觉特征+语义理解混合定位 |
流程设计 |
固定工作流 |
基于目标的动态路径生成 |
异常处理 |
预设try-catch块 |
实时诊断+自主恢复 |
测试数据 |
静态数据集 |
动态生成符合业务规则的数据 |
维护成本 |
变更导致大量脚本失效 |
自动适应部分UI变化 |
执行速度 |
快(毫秒级响应) |
较慢(需AI推理时间) |
准确定位 |
100%精确但脆弱 |
95%准确但健壮 |
适用场景 |
稳定业务流程 |
动态复杂场景 |
代码对比
传统自动化
痛点:元素ID变更即导致脚本失败
智能自动化
优势:自动适应登录表单结构调整
使用技术
Playwright是什么?
Playwright 是由 Microsoft 开发的一款 跨浏览器、跨平台 的 Web 自动化与测试工具,支持 Chromium(Chrome/Edge)、Firefox 和 WebKit(Safari)。它提供了一套统一的 API,用于自动化浏览器操作,适用于:
- 端到端(E2E)测试
- UI 自动化
- 网页截图 & PDF 生成
- 爬取动态渲染的网页
- 性能监控
详细介绍可参考此篇文章: 点我跳转
MidScene.js是什么?
MidScene.js 是一款面向智能自动化的 AI 场景化编程框架,通过自然语言交互和机器学习能力,赋予传统自动化工具(如 Playwright)认知决策能力。它的核心定位是:
- AI 增强型自动化:将大语言模型(LLM)与自动化脚本结合
- 低代码/无代码友好:支持自然语言描述任务场景
- 多模态交互:处理文本、图像、结构化数据等多种输入
- 企业级扩展:支持私有化部署和垂直领域微调
技术架构
网页或移动应用
网页自动化
- 与 Puppeteer集成
Puppeteer 是一个 Node.js 库,它通过 DevTools 协议或 WebDriver BiDi 提供控制 Chrome 或 Firefox 的高级 API。Puppeteer 默认在无界面模式(headless)下运行,但可以配置为在可见的浏览器模式(headed)中运行。
安装依赖
demo脚本
- 与Playwright集成
安装依赖
demo代码
- Chrome 桥接模式(Bridge Mode)
使用 Midscene 的 Chrome 插件桥接模式(Bridge Mode),你可以用本地脚本控制桌面版本的 Chrome。你的脚本可以连接到新标签页或当前已激活的标签页。
使用桌面版本的 Chrome 可以让你复用已有的 cookie、插件、页面状态等。你可以使用自动化脚本与操作者互动,来完成你的任务。
安装依赖
demo脚本
启动 Chrome 插件
运行脚本
Android 自动化
可以通过安装MCP工具,操作安卓端
关键工具
- 更快,通过设置缓存,可以大幅减少AI服务相关步骤的执行时间
MIDSCENE_CACHE=1
这是一个环境变量,设置为 1 表示启用 Midscene.js 的缓存功能。在测试运行时,Midscene.js 会尝试复用之前缓存的资源(如渲染结果、静态文件等),从而加速测试执行。
playwright test
运行 Playwright 的测试脚本。
--config=playwright.config.ts
指定 Playwright 的配置文件路径(这里是 TypeScript 格式的配置文件)。
- 更标准,支持MCP
API
案例实操
已当前测试登录页面为例,进行了实操
共建
欢迎有想法的伙伴们,咱们一起共建,让AI自动化助力你我
所有评论(0)