m0_60781580 个人主页

@m0_60781580

m0_60781580

2024-03-19 19:43:13 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

OmniParser视觉鼠标自动化实战

文章摘要：OmniParser通过视觉解析(YOLOv8识别UI元素)+键鼠执行(pyautogui)实现自动化操作，核心流程为截图→识别元素→计算坐标→执行点击。Python实现方案推荐使用pyautogui库，支持移动、点击、拖拽等操作，并可结合视觉识别实现完整自动化流程。Ollama推荐的VLM模型中，Qwen系列最适合UI定位，能直接输出可点击坐标。硬件要求方面，8GB显存可运行Qwen2

#自动化 #运维

OpenFlow：AI编程必备本地语音输入神器

OpenFlow是一款开源的本地语音输入工具，支持AI编程场景下的语音转文字功能。它提供一键录音、本地转写和自动复制到剪贴板的功能，适用于Cursor、VSCode等开发环境。Windows用户可通过GitHub下载预编译包或使用PowerShell一键安装（需Rust环境）。核心功能包括：系统托盘状态显示、右侧Alt键录音热键、本地SenseVoiceSmall模型（约230MB，离线可用）。安

微软官方Python网格覆盖与鼠标控制库

微软官方提供了基于Python的网格覆盖和鼠标控制方案，主要通过pywin32库实现Windows原生API调用。该方案支持屏幕网格划分（默认8×8）、精准鼠标定位移动、点击操作及坐标获取，完全复刻Windows系统自带的网格导航功能（Win+Ctrl+N）。核心代码使用微软官方推荐的SetCursorPos和mouse_event等原生API，包含网格中心定位、左键单击等完整功能模块。开发者可快

#自动化

ZeroClaw + Ollama通过手机飞书控制电脑全攻略

本文提供了两种通过手机控制电脑的完整解决方案。方案一采用ZeroClaw+Ollama+飞书组合，包含环境准备、本地模型部署、Rust编译、飞书机器人配置等详细步骤，实现自然语言指令控制电脑操作。方案二使用开箱即用的Nanobot工具，简化了配置流程，同样支持飞书对接和短信中转控制。两种方案均包含开机自启设置和常见问题解决方案，适用于不同技术需求的用户，最终都能实现手机发送消息远程控制电脑执行任务

#AI

#AI

摘要：Playwright是微软开发的跨浏览器自动化框架，支持Chromium/Firefox/WebKit三大引擎，可用于测试、爬虫和RPA。结合MCP协议，可将Playwright封装为AI可调用的浏览器自动化服务，让AI通过自然语言操作网页。文章介绍了两种接入方式：通过iFlow CLI或Anthropic Claude，并提供了详细的安装配置步骤。Playwright MCP使得网页自动化

#AI

微软OmniTool：AI视觉操控电脑

摘要：OmniParser是一个专注于图像到UI元素结构转换的模型，不具备开发框架功能。微软系OmniTool提供GUI自动化解决方案，包含视觉解析、虚拟机和交互界面。开源工具Omnitool.ai整合多种AI模型，适合本地使用。调用OmniParser有三种方案：Gradio API、本地部署HTTP请求和第三方Python封装。MCP集成可通过现成方案实现，与OpenClaw联动时OmniPa

#microsoft #人工智能

Edge插件与Office加载项开发指南

本文介绍了两种Microsoft生态系统的扩展开发指南：Edge插件和Office Web Add-in。Edge插件开发基于Chromium内核，兼容Chrome扩展，官方文档详细介绍了Manifest V3规范、本地测试和发布流程。Office Web Add-in开发需要配置XML清单文件，包含基本信息、图标、支持应用和功能按钮等元素，并提供了项目结构和本地调试步骤。两种扩展都强调官方文档参

#edge #前端

EvoMap 全球首个面向 AI Agent 的自进化基础设施

#AI

共 45 条

请选择