Agent 截图 OCR 隐私泄露？解析视觉工具调用的安全边界

2600_95840461

1人浏览 · 2026-05-22 17:02:23

2600_95840461 · 2026-05-22 17:02:23 发布

用户甩一张截图问「为啥报错」时，Agent 的 OCR+推理链路究竟会触及多少桌面隐私？本文将拆解从像素捕获到文本解析的全流程安全控制点，重点讨论 ClawHub 沙箱环境下的权限约束方案。

一、截图上传的隐私暴露面

当用户通过 Telegram/Slack 等通道发送截图给 Agent 时，以下数据可能被意外捕获（以 Windows 截图工具为例）：

可见窗口内容：包括最小化但未关闭的敏感应用（如银行客户端）
系统托盘图标：VPN状态、云同步标识等元数据
剪贴板历史：部分截图工具会附带缓存剪贴板内容
文件元信息：截图文件可能保留原始路径痕迹

ClawBridge 网关的默认行为是仅上传用户框选区域，但需要警惕第三方截图工具的「智能捕获」插件可能越界。根据 OpenClaw 社区的测试数据，使用 Snipaste 等工具时，约 12% 的案例会因「自动捕捉活动窗口」功能导致敏感信息泄露。

二、服务端处理链路的硬隔离

2.1 视觉模型路由策略

ClawSDK 的模型路由规则要求：

纯文本 OCR 任务必须使用无监督学习的轻量模型（如 PaddleOCR 裁剪版）
涉及图像理解的请求必须经过二次人工审批
医疗/金融类截图自动触发 requires_human_review 标签
模型输出层强制添加置信度阈值（默认 0.92），低于阈值的内容标记为不可信

2.2 临时存储加密方案

WorkBuddy 服务对上传媒体文件实施：

AES-256 内存态加密（生存周期 ≤ 300秒）
禁止写入持久化存储
处理完成后强制内存清零（通过 mlock 防止换出）
分块处理机制：将大图分割为 256x256 像素的区块独立处理

三、沙箱环境的关键配置

在 ClawOS 的受限执行环境中，需检查以下配置项：

# /etc/claw/sandbox/policy.d/ocr.conf
[input]
max_pixel_area = 1920x1080  # 超出尺寸需压缩
allow_clipboard = false
preprocess_filter = blur(radius=3)  # 预处理模糊敏感区域

[output]
redact_patterns = credit_card,phone,ID_number
mask_sensitive_ui = true  # 自动模糊系统托盘区
max_text_length = 500  # 输出字符数限制

实际部署时曾发现一个典型案例：某医疗 Agent 因未设置 preprocess_filter，导致病历截图中的患者生日信息被完整识别。该漏洞在 ClawHub v2.3.1 中通过强制预处理规则修复。

四、审计与应急响应

日志记录要点：
原始截图哈希值（用于事后追溯）
OCR 输出前 3 个字符的掩码（如「623***」）
调用视觉模型的开发者 API Key
处理耗时和内存峰值（检测异常负载）
沙箱违规事件计数器（通过 seccomp 触发）
投诉处理流程： ① 立即冻结相关会话 ID
② 审查 /var/log/claw/vision_audit.log
③ 执行磁盘擦除（使用 sfill -llv /tmp） ④ 生成隐私影响评估报告（PIA Template v1.2）