logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【论文阅读】-《Temporal UI State Inconsistency in Desktop GUI Agents: Formalizing and Defending Against TO》

通过截图-点击循环控制桌面计算机的 GUI 智能体引入了一类新的漏洞:观察-动作间隔(在真实 OSWorld 工作负载上平均为 6.51 秒)创造了一个检查时间到使用时间(TOCTOU)窗口,在此期间,非特权攻击者可以操纵 UI 状态。我们将此形式化为视觉原子性违反,并刻画了三种具体的攻击原语:(A)通知覆盖劫持,(B)窗口焦点操纵,和(C)网页 DOM 注入。原语 B——桌面平台上与 Andro

文章图片
#论文阅读#ui
【论文阅读】-《Atomicity for Agents: Exposing, Exploiting, and Mitigating TOCTOU Vulnerabilities in Browse》

本文研究了浏览器使用智能体中的检查时间到使用时间(TOCTOU)漏洞问题。研究发现,智能体在规划动作和执行动作之间存在时间间隙,网页在此期间可能动态变化,导致智能体基于过时假设执行非预期动作。作者构建了DYNWEB基准测试平台,对10个主流开源智能体进行实证评估,发现TOCTOU漏洞普遍存在。为缓解该问题,作者提出了一种轻量级的执行前验证机制,通过监控DOM和布局变化,在动作执行前即时验证页面状态

文章图片
#论文阅读#人工智能#ui
【论文阅读】-《AdInject: Real-World Black-Box Attacks on Web Agents via Advertising Delivery》

摘要 本文提出AdInject,一种利用互联网广告投放对Web智能体进行黑盒攻击的新方法。与现有研究不同,AdInject在更现实的威胁模型下运行:攻击者无法访问智能体内部信息、只能注入静态广告内容且不了解用户意图。该方法包含恶意广告设计策略和基于视觉语言模型(VLM)的内容优化技术,后者通过推断网站上下文来增强广告相关性。实验表明,AdInject在VisualWebArena和OSWorld基

文章图片
#论文阅读#前端
【论文阅读】-《Zero-Permission Manipulation: Can We Trust Large Multimodal Model Powered GUI Agents?》

摘要 本文揭示了大模型驱动的GUI智能体在Android系统中的安全隐患。研究发现,GUI智能体依赖的"视觉原子性"假设(即UI状态在观察和动作之间保持不变)在Android中并不成立,导致存在"动作重绑定"攻击面。攻击者可通过操纵观察-动作间隙,将智能体的执行重定向到目标应用,无需任何敏感权限。实验在6个主流Android GUI智能体上进行,结果显示原子动作重绑定成功率100%,并能可靠编排多

文章图片
#论文阅读#人工智能#ui
【论文阅读】-《AgentRAE: Remote Action Execution through Notification-based Visual Backdoors against Scree》

摘要:本文提出AgentRAE,一种针对移动GUI智能体的新型后门攻击方法,利用通知中的视觉自然触发器(如应用图标)实现远程动作执行。通过创新的两阶段训练框架(对比学习+监督微调),解决了移动环境中触发器设计受限、操作系统干扰和多目标映射等挑战。实验表明该方法在10种移动操作上攻击成功率超90%,且能绕过8种先进防御。研究揭示了移动GUI智能体中潜在的系统性漏洞,强调需针对通知行为和智能体内部表示

文章图片
#论文阅读#人工智能#ui
【论文阅读】-《AgentRAE: Remote Action Execution through Notification-based Visual Backdoors against Scree》

摘要:本文提出AgentRAE,一种针对移动GUI智能体的新型后门攻击方法,利用通知中的视觉自然触发器(如应用图标)实现远程动作执行。通过创新的两阶段训练框架(对比学习+监督微调),解决了移动环境中触发器设计受限、操作系统干扰和多目标映射等挑战。实验表明该方法在10种移动操作上攻击成功率超90%,且能绕过8种先进防御。研究揭示了移动GUI智能体中潜在的系统性漏洞,强调需针对通知行为和智能体内部表示

文章图片
#论文阅读#人工智能#ui
【论文阅读】-《AgentRAE: Remote Action Execution through Notification-based Visual Backdoors against Scree》

摘要:本文提出AgentRAE,一种针对移动GUI智能体的新型后门攻击方法,利用通知中的视觉自然触发器(如应用图标)实现远程动作执行。通过创新的两阶段训练框架(对比学习+监督微调),解决了移动环境中触发器设计受限、操作系统干扰和多目标映射等挑战。实验表明该方法在10种移动操作上攻击成功率超90%,且能绕过8种先进防御。研究揭示了移动GUI智能体中潜在的系统性漏洞,强调需针对通知行为和智能体内部表示

文章图片
#论文阅读#人工智能#ui
【论文阅读】-《Poison Once, Control Anywhere: Clean-Text Visual Backdoors in VLM-based Mobile Agents》

基于视觉语言模型(VLM)的移动智能体正越来越多地被用于 UI 自动化和基于摄像头的辅助等任务。这些智能体通常使用小规模的、用户收集的数据进行微调,这使得它们容易受到隐蔽的训练时威胁。本文提出了 VIBMA,这是首个针对基于 VLM 的移动智能体的干净文本后门攻击。该攻击仅修改视觉输入,同时保持文本提示和指令不变,通过完全没有文本异常来实现隐蔽性。一旦智能体在此中毒数据上微调,在推理时添加预定义的

文章图片
#论文阅读#人工智能#ui
【论文阅读】-《Hidden Ghost Hand: Unveiling Backdoor Vulnerabilities in MLLM-Powered Mobile GUI Agents》

本文揭示了多模态大语言模型(MLLM)驱动的移动GUI智能体中存在的后门漏洞风险。研究团队提出了AgentGhost框架,通过组合目标级别和交互级别的触发器,构建了一种隐蔽且有效的后门攻击方法。该攻击利用监督对比学习最大化特征差异,同时通过监督微调最小化后门与正常行为的差异,在保持任务效用的同时实现攻击目的。实验表明,AgentGhost在三个攻击目标上达到99.7%的成功率,仅造成1%的效用下降

文章图片
#论文阅读#人工智能#ui
【论文阅读】-《VisualTrap: A Stealthy Backdoor Attack on GUI Agents via Visual Grounding Manipulation》

由大视觉语言模型驱动的图形用户界面智能体已成为自动化人机交互的革命性方法,能够自主操作个人设备(如手机)或设备内的应用程序,以类人的方式执行复杂的现实世界任务。然而,它们与个人设备的紧密集成引发了重大的安全问题,包括后门攻击在内的许多威胁仍然 largely 未被探索。这项工作揭示,GUI智能体的视觉接地——将文本计划映射到GUI元素——可能引入漏洞,使得新型后门攻击成为可能。通过针对视觉接地的后

文章图片
#论文阅读#人工智能
    共 29 条
  • 1
  • 2
  • 3
  • 请选择