∞984 个人主页

@2303_80022567

∞984

2024-07-20 15:19:49 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

【论文阅读】-《Temporal UI State Inconsistency in Desktop GUI Agents: Formalizing and Defending Against TO》

通过截图-点击循环控制桌面计算机的 GUI 智能体引入了一类新的漏洞：观察-动作间隔（在真实 OSWorld 工作负载上平均为 6.51 秒）创造了一个检查时间到使用时间（TOCTOU）窗口，在此期间，非特权攻击者可以操纵 UI 状态。我们将此形式化为视觉原子性违反，并刻画了三种具体的攻击原语：（A）通知覆盖劫持，（B）窗口焦点操纵，和（C）网页 DOM 注入。原语 B——桌面平台上与 Andro

#论文阅读 #ui

【论文阅读】-《Atomicity for Agents: Exposing, Exploiting, and Mitigating TOCTOU Vulnerabilities in Browse》

本文研究了浏览器使用智能体中的检查时间到使用时间（TOCTOU）漏洞问题。研究发现，智能体在规划动作和执行动作之间存在时间间隙，网页在此期间可能动态变化，导致智能体基于过时假设执行非预期动作。作者构建了DYNWEB基准测试平台，对10个主流开源智能体进行实证评估，发现TOCTOU漏洞普遍存在。为缓解该问题，作者提出了一种轻量级的执行前验证机制，通过监控DOM和布局变化，在动作执行前即时验证页面状态

#论文阅读 #人工智能 #ui

【论文阅读】-《Zero-Permission Manipulation: Can We Trust Large Multimodal Model Powered GUI Agents?》

摘要本文揭示了大模型驱动的GUI智能体在Android系统中的安全隐患。研究发现，GUI智能体依赖的"视觉原子性"假设（即UI状态在观察和动作之间保持不变）在Android中并不成立，导致存在"动作重绑定"攻击面。攻击者可通过操纵观察-动作间隙，将智能体的执行重定向到目标应用，无需任何敏感权限。实验在6个主流Android GUI智能体上进行，结果显示原子动作重绑定成功率100%，并能可靠编排多

#论文阅读 #人工智能 #ui

【论文阅读】-《AgentRAE: Remote Action Execution through Notification-based Visual Backdoors against Scree》

摘要：本文提出AgentRAE，一种针对移动GUI智能体的新型后门攻击方法，利用通知中的视觉自然触发器（如应用图标）实现远程动作执行。通过创新的两阶段训练框架（对比学习+监督微调），解决了移动环境中触发器设计受限、操作系统干扰和多目标映射等挑战。实验表明该方法在10种移动操作上攻击成功率超90%，且能绕过8种先进防御。研究揭示了移动GUI智能体中潜在的系统性漏洞，强调需针对通知行为和智能体内部表示

#论文阅读 #人工智能 #ui

【论文阅读】-《AgentRAE: Remote Action Execution through Notification-based Visual Backdoors against Scree》

#论文阅读 #人工智能 #ui

【论文阅读】-《AgentRAE: Remote Action Execution through Notification-based Visual Backdoors against Scree》

#论文阅读 #人工智能 #ui

【论文阅读】-《Poison Once, Control Anywhere: Clean-Text Visual Backdoors in VLM-based Mobile Agents》

基于视觉语言模型（VLM）的移动智能体正越来越多地被用于 UI 自动化和基于摄像头的辅助等任务。这些智能体通常使用小规模的、用户收集的数据进行微调，这使得它们容易受到隐蔽的训练时威胁。本文提出了 VIBMA，这是首个针对基于 VLM 的移动智能体的干净文本后门攻击。该攻击仅修改视觉输入，同时保持文本提示和指令不变，通过完全没有文本异常来实现隐蔽性。一旦智能体在此中毒数据上微调，在推理时添加预定义的

#论文阅读 #人工智能 #ui

【论文阅读】-《Hidden Ghost Hand: Unveiling Backdoor Vulnerabilities in MLLM-Powered Mobile GUI Agents》

本文揭示了多模态大语言模型(MLLM)驱动的移动GUI智能体中存在的后门漏洞风险。研究团队提出了AgentGhost框架，通过组合目标级别和交互级别的触发器，构建了一种隐蔽且有效的后门攻击方法。该攻击利用监督对比学习最大化特征差异，同时通过监督微调最小化后门与正常行为的差异，在保持任务效用的同时实现攻击目的。实验表明，AgentGhost在三个攻击目标上达到99.7%的成功率，仅造成1%的效用下降

#论文阅读 #人工智能 #ui

【论文阅读】-《VisualTrap: A Stealthy Backdoor Attack on GUI Agents via Visual Grounding Manipulation》

由大视觉语言模型驱动的图形用户界面智能体已成为自动化人机交互的革命性方法，能够自主操作个人设备（如手机）或设备内的应用程序，以类人的方式执行复杂的现实世界任务。然而，它们与个人设备的紧密集成引发了重大的安全问题，包括后门攻击在内的许多威胁仍然 largely 未被探索。这项工作揭示，GUI智能体的视觉接地——将文本计划映射到GUI元素——可能引入漏洞，使得新型后门攻击成为可能。通过针对视觉接地的后

#论文阅读 #人工智能

【论文阅读】-《LaSM: Layer-wise Scaling Mechanism for Defending Pop-up Attack on GUI Agents》

摘要本文提出LaSM（层级缩放机制）来防御GUI智能体面临的弹窗攻击。研究发现，多模态大语言模型构建的GUI智能体在弹窗攻击下会出现层级注意力发散现象，导致决策错误。LaSM通过选择性放大关键层的注意力和MLP模块，无需重新训练即可有效恢复任务相关区域的显著性。实验表明，LaSM在Qwen2-VL-7B和LLaVA-v1.6-Vicuna-13B等模型上显著提高了防御成功率（最高达100%），同

#论文阅读 #人工智能

共 28 条

请选择