logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

OmniParser视觉鼠标自动化实战

文章摘要:OmniParser通过视觉解析(YOLOv8识别UI元素)+键鼠执行(pyautogui)实现自动化操作,核心流程为截图→识别元素→计算坐标→执行点击。Python实现方案推荐使用pyautogui库,支持移动、点击、拖拽等操作,并可结合视觉识别实现完整自动化流程。Ollama推荐的VLM模型中,Qwen系列最适合UI定位,能直接输出可点击坐标。硬件要求方面,8GB显存可运行Qwen2

文章图片
#自动化#运维
OpenFlow:AI编程必备本地语音输入神器

OpenFlow是一款开源的本地语音输入工具,支持AI编程场景下的语音转文字功能。它提供一键录音、本地转写和自动复制到剪贴板的功能,适用于Cursor、VSCode等开发环境。Windows用户可通过GitHub下载预编译包或使用PowerShell一键安装(需Rust环境)。核心功能包括:系统托盘状态显示、右侧Alt键录音热键、本地SenseVoiceSmall模型(约230MB,离线可用)。安

文章图片
微软官方Python网格覆盖与鼠标控制库

微软官方提供了基于Python的网格覆盖和鼠标控制方案,主要通过pywin32库实现Windows原生API调用。该方案支持屏幕网格划分(默认8×8)、精准鼠标定位移动、点击操作及坐标获取,完全复刻Windows系统自带的网格导航功能(Win+Ctrl+N)。核心代码使用微软官方推荐的SetCursorPos和mouse_event等原生API,包含网格中心定位、左键单击等完整功能模块。开发者可快

文章图片
#自动化
ZeroClaw + Ollama通过手机飞书控制电脑全攻略

本文提供了两种通过手机控制电脑的完整解决方案。方案一采用ZeroClaw+Ollama+飞书组合,包含环境准备、本地模型部署、Rust编译、飞书机器人配置等详细步骤,实现自然语言指令控制电脑操作。方案二使用开箱即用的Nanobot工具,简化了配置流程,同样支持飞书对接和短信中转控制。两种方案均包含开机自启设置和常见问题解决方案,适用于不同技术需求的用户,最终都能实现手机发送消息远程控制电脑执行任务

#AI
OpenAI Codex 桌面版

OpenAI Codex 桌面版

文章图片
#AI
Ollama 安装OpenClaw

Ollama 安装OpenClaw

文章图片
#Ollama
Playwright MCP

摘要:Playwright是微软开发的跨浏览器自动化框架,支持Chromium/Firefox/WebKit三大引擎,可用于测试、爬虫和RPA。结合MCP协议,可将Playwright封装为AI可调用的浏览器自动化服务,让AI通过自然语言操作网页。文章介绍了两种接入方式:通过iFlow CLI或Anthropic Claude,并提供了详细的安装配置步骤。Playwright MCP使得网页自动化

文章图片
#AI
微软OmniTool:AI视觉操控电脑

摘要:OmniParser是一个专注于图像到UI元素结构转换的模型,不具备开发框架功能。微软系OmniTool提供GUI自动化解决方案,包含视觉解析、虚拟机和交互界面。开源工具Omnitool.ai整合多种AI模型,适合本地使用。调用OmniParser有三种方案:Gradio API、本地部署HTTP请求和第三方Python封装。MCP集成可通过现成方案实现,与OpenClaw联动时OmniPa

文章图片
#microsoft#人工智能
Edge插件与Office加载项开发指南

本文介绍了两种Microsoft生态系统的扩展开发指南:Edge插件和Office Web Add-in。Edge插件开发基于Chromium内核,兼容Chrome扩展,官方文档详细介绍了Manifest V3规范、本地测试和发布流程。Office Web Add-in开发需要配置XML清单文件,包含基本信息、图标、支持应用和功能按钮等元素,并提供了项目结构和本地调试步骤。两种扩展都强调官方文档参

文章图片
#edge#前端
EvoMap 全球首个面向 AI Agent 的自进化基础设施

EvoMap 全球首个面向 AI Agent 的自进化基础设施

#AI
    共 45 条
  • 1
  • 2
  • 3
  • 4
  • 5
  • 请选择