登录社区云,与社区用户共同成长
邀请您加入社区
Qwen-Image-2.0:图像生成模型正在从“会出图”走向“能交付复杂视觉任务”
ERNIE-Image:开源文生图正在从“会画图”走向“能交付视觉内容”
说明,以下内容右chatgpt生成,为了个人多次深刻理解,现记录下来,供反复理解。
Zotero-Cat是一款为Zotero开发的AI插件,旨在简化文献阅读流程。它允许用户在Zotero右侧面板直接与论文对话,支持提问、总结、提炼要点等功能,无需在多个应用间切换。开发者选择Zotero平台因其云同步优势,并希望保持界面简洁。目前插件支持OpenAI兼容API,可自定义配置。项目处于早期测试阶段,邀请用户试用并反馈安装、使用体验等问题。开发者强调数据安全性,所有内容仅发送至用户配置
通过让机器人大军在实际干活时边干边学(Online RL),用分布式的强化学习算法,把预训练好的通用机器人模型(VLA)从“理论派”变成“实战派”,解决了离线数据无法覆盖真实世界复杂情况的痛点。
通过用真实机器人跑坏掉的数据“校准”世界模型(World Model),让这个模拟器不再“画饼”(过于乐观),然后用校准后的模拟器生成海量假数据来训练机器人策略,实现了在接触丰富、软体物体任务上的大幅提效。
中科院深圳先进院等机构联合发布SegCompass,首次将稀疏自编码器(SAE)引入推理分割任务,实现多模态大模型的全白盒可解释性。传统方法存在黑盒推理或语义丢失问题,而SegCompass通过SAE将稠密向量解耦为可解释的稀疏概念,生成带语义的多槽热力图,使推理过程可视化。该方法在5大主流榜单取得SOTA性能,并通过重构质量与分割精度的强相关性验证了其可靠性。SegCompass证明性能与可解释
摘要:本文提出了一种新型红队测试方法——语义级UI元素注入,用于评估GUI智能体的视觉接地鲁棒性。该方法通过叠加安全无害但语义相关的UI元素来误导智能体,无需白盒访问或恶意内容。研究采用模块化流水线(编辑器-叠加器-受害者)和迭代搜索策略,在五个受害者模型上实现了4.4倍于随机注入的攻击成功率提升。实验还发现攻击具有模型无关性和持久性(后续攻击成功率>15%),揭示了GUI智能体在视觉-语义模糊性
摘要 本文研究了图形用户界面(GUI)智能体在动态网络环境中的安全漏洞问题。研究发现,现有环境注入攻击(EIA)方法在静态假设下评估攻击效果,未能反映真实网络环境的动态特性,导致攻击成功率被高估。为此,作者提出了一个现实的动态环境威胁模型,并开发了Chameleon攻击框架。该框架包含两项关键技术:LLM驱动的环境模拟自动生成多样化网页样本,注意力黑洞机制通过显式监督信号优化触发器在动态环境中的鲁
摘要 本文提出AdInject,一种利用互联网广告投放对Web智能体进行黑盒攻击的新方法。与现有研究不同,AdInject在更现实的威胁模型下运行:攻击者无法访问智能体内部信息、只能注入静态广告内容且不了解用户意图。该方法包含恶意广告设计策略和基于视觉语言模型(VLM)的内容优化技术,后者通过推断网站上下文来增强广告相关性。实验表明,AdInject在VisualWebArena和OSWorld基
摘要 本文提出EVA框架,针对GUI智能体的间接提示注入漏洞进行红队测试。研究发现,当前GUI智能体容易受到环境注入攻击,即通过视觉界面中的恶意元素(如弹窗、聊天消息)误导智能体行为。与静态攻击方法相比,EVA采用闭环优化策略,通过持续监控智能体注意力分布并动态调整对抗性提示(包括关键词、措辞和布局),显著提高了攻击成功率。在六种主流GUI智能体上的实验表明,EVA在弹窗操纵、钓鱼攻击等场景中成功
WASP基准测试揭示Web智能体面临严重安全风险 摘要:本研究提出WASP基准测试,首次对Web智能体在提示注入攻击下的安全性进行端到端评估。测试结果显示,即使顶级AI模型(包括具备高级推理能力的模型)在86%的情况下会被简单的人工编写注入攻击部分劫持。值得注意的是,当前智能体因能力不足导致完全执行攻击的成功率仅为0-17%,呈现出"能力不足带来的安全性"现象。该基准采用更现实的威胁模型,将攻击者
本文综述了锂离子电池热失控引发火灾和爆炸的机理及防护措施。热失控是电池内部热化学反应失控的过程,通过产热、产气和喷射等环节可能演化为火灾或爆炸风险。论文从热平衡、副反应、热模型等角度分析了热失控机理,并强调其正反馈特性使系统难以自我恢复。防护措施包括材料层面的本征安全优化和系统级的安全装置设计,需形成多层防护体系。工程实践中应建立完整的事故链思维,关注从异常触发到系统级事故扩展的全过程,在材料、电
FiLM层就像一个"调光器"。对于不同的语言指令,它会对图像特征图的不同通道进行不同程度的"调亮"或"调暗"。那么,我们能不能像NLP和CV领域那样,训练一个通用的机器人大模型,让它能够从大量多样化的数据中学习通用的技能,然后零样本或少样本地泛化到新任务上呢?:想象一下,未来你可以用自然语言告诉你的家庭机器人"帮我准备早餐",它会自动打开冰箱,拿出牛奶、面包和鸡蛋,然后为你煎鸡蛋、烤面包、倒牛奶。
《Seedream 4.0:多模态图像生成系统的工业级实践》 本文介绍了Seedream 4.0这一工业级AIGC图像生成系统的技术突破。该系统通过高效DiT架构和高压缩VAE降低高分辨率生成成本,结合细粒度数据治理提升知识型内容生成能力。采用多阶段后训练(CT/SFT/RLHF)和VLM驱动的Prompt Engineering,使系统具备文生图、图像编辑、多图参考等复合功能。通过对抗蒸馏、量化
通过这种方式,RT-2-PaLI-X-55B可以达到1-3Hz的控制频率,而较小的RT-2-PaLI-X-5B可以达到5Hz,完全满足实时控制的要求。最大的RT-2-PaLI-X-55B模型有550亿个参数,这在普通的机器人GPU上根本跑不起来。受到大语言模型中思维链(Chain-of-Thought)提示的启发,研究人员还尝试让RT-2先生成一个自然语言的计划,然后再生成动作。这样一来,我们就可
这篇论文证明了RLHF是比单纯扩大数据规模或在公开 NLP 数据集上微调更有效的对齐手段。它让模型变得更“聪明”、更“诚实”,但也揭示了对齐过程中的复杂性(如毒性与顺从性的平衡)。这也是为什么后来 ChatGPT 能够横空出世的技术基础。
本文提出了一种名为MEM的多模态记忆架构,通过结合短时视觉记忆和长时语言记忆,解决了机器人模型在处理长达十几分钟的复杂任务时的记忆与效率平衡问题。
潜在动作是一种紧凑的中间表示,它从视觉变化或原始动作中抽象出与任务相关的信息。
Inner Monologue是机器人领域的一个重要突破。它证明了用自然语言作为机器人的“内心独白”,可以让大语言模型成为一个强大的闭环规划器。通过引入简单的自然语言反馈,Inner Monologue解决了之前开环规划方法的鲁棒性问题,让机器人能够在复杂动态的真实环境中灵活应对各种情况。更重要的是,它不需要任何额外的训练,只需要用少量的提示词就能让LLM具备这种能力。这篇论文向我们展示了通用基础
它没有直接丢一堆杂乱的文献给我,首先我筛选了检索范围,把中英文核心文献、近年相关的国自然/地方基金项目、还有行业最新的公开研究成果全部捞出来,最终直接给我生成了一份完整的调研报告:既有研究背景、核心技术进展,高频研究关键词、未来可切入的创新方向,连所有参考文献都附好了原文跳转链接,还有当前已获批的相关基金项目,我改改格式就能直接放进基金申报书的研究现状部分,省了我至少两周的调研时间!现在从一个模糊
Recover and Match: Open-Vocabulary Multi-Label Recognition throughKnowledge-Constrained Optimal Transport(恢复与匹配:基于知识约束的最优传输的开放词汇多标签识别)此片论文主要做的是开放词汇多标签识别(测试时不只识别训练见过的标签,还要识别没见过的新标签,要求模型既要能看懂图,又要能通过文本标签
本文研究了多模态语言模型智能体在真实Web环境中的对抗鲁棒性。作者构建了VisualWebArena的对抗扩展VWA-Adv,包含200个针对性对抗任务,并提出智能体鲁棒性评估(ARE)框架来系统分析复合智能体系统的脆弱性。研究发现,即使使用最先进的黑盒语言模型(如GPT-4o)并配备反思和树搜索等复杂组件的智能体,也能被成功攻击——通过对单张图像添加仅占网页总像素5%的微小扰动,攻击成功率高达6
本文提出了一种名为RLDX-1的通用机器人策略模型,通过整合视觉、语言、动作以及触觉/扭矩等物理信号,并配合合成数据和推理优化,让机器人(尤其是人形机器人)能像人一样灵活地处理复杂的动态和接触丰富的操作任务。
本文提出了一种名为GTA-VLA的框架,允许人类通过简单的点、框或轨迹等视觉提示来引导机器人的思考过程,从而解决机器人视觉理解错误或环境复杂导致的任务失败问题。
本文提出了一种名为StereoVLA的模型,通过引入双目立体视觉,显著增强了机器人视觉语言动作模型(VLA)的空间感知和操作精度。
本文提出了一种名为LDA-1B的机器人基础模型,通过在统一的潜在空间中联合学习环境动力学、策略和视觉预测,实现了对海量异构数据(包括低质量数据和纯视频)的有效利用和扩展。
Gato是通用智能体发展史上的一个重要里程碑。它证明了用一个统一的序列模型处理所有模态、所有任务是完全可行的。虽然Gato还不是真正的通用人工智能,但它向我们展示了一条清晰的道路:只要我们有足够多的多样化数据和足够大的模型,我们就可以训练出一个能完成各种任务的通用智能体。就像论文中所说的:“Transformer序列模型作为多任务多载体策略是有效的,包括真实世界的文本、视觉和机器人任务。未来,这样
本文发布了新一代通用机器人模型GEN-1,通过大规模物理数据预训练和算法优化,首次让机器人在简单任务上达到了接近人类的“精通”水平(高成功率、高速度、能即兴应变)。
本文提出了GEN-0,一种通过海量真实物理交互数据进行预训练的具身基础模型,旨在建立机器人领域的“扩展定律”,实现机器人智能随数据和算力增加而可预测地提升。
本文提出MELON方法防御AI智能体的间接提示注入攻击(IPI)。IPI攻击通过工具检索信息中的恶意任务重定向智能体执行未授权操作。现有防御方法存在资源消耗大、防御效果有限或损害正常效用等问题。MELON基于关键观察:受攻击时智能体动作对用户任务的依赖性降低。该方法通过掩码修改用户提示重执行轨迹,比较原始与掩码执行的工具调用差异来检测攻击。实验表明,MELON在AgentDojo基准上优于现有方法
摘要: 本文提出AgentDojo,一个动态评估框架,用于测试LLM智能体在提示注入攻击下的安全性和防御能力。AgentDojo包含97个现实任务(如邮件管理、银行操作等)和629个安全测试用例,模拟智能体在不可信数据环境中的工具调用行为。研究发现,现有LLM在无攻击时任务完成率不足66%,而攻击成功率低于25%。部署防御措施后,攻击成功率降至8%。AgentDojo作为可扩展平台,支持新任务、攻
本文提出了一种名为 VGGT-Ω 的模型,旨在通过扩大模型和数据规模,并改进架构(如引入 Register Attention),实现更快速、更准确的静态和动态场景 3D 重建。
近期工作将大型语言模型(LLM)具身化为智能体,使其能够访问工具、执行动作并与外部内容(如电子邮件或网站)交互。然而,外部内容引入了间接提示注入(IPI)攻击的风险,即恶意指令被嵌入到LLM处理的内容中,旨在操纵这些智能体执行对用户有害的行动。鉴于此类攻击可能造成严重后果,建立基准以评估和缓解这些风险势在必行。本文中,我们介绍了INJECAGENT,一个用于评估工具集成LLM智能体对IPI攻击脆弱
本文提出了一种名为 MotuBrain 的机器人控制模型,它通过一个统一的 Diffusion 模型同时预测“世界画面”和“机器人动作”,让机器人既能看懂世界,又能精准执行复杂任务。
本文提出RECAP方法,通过优势条件策略实现视觉语言动作模型(VLA)的强化学习训练。该方法整合演示数据、自主收集数据和专家干预,首先通过离线RL预训练通用VLA模型π*0.6,再针对下游任务进行优化。核心创新在于:1)使用多任务价值函数Vπref评估状态价值;2)基于优势函数Aπ生成改进指标It指导策略优化。实验表明,该方法能显著提升任务成功率和执行效率。相比传统方法,RECAP通过价值函数引导
本文提出了一种名为 Stable Video Infinity (SVI) 的方法,通过“循环利用”模型自己犯的错误来训练视频生成模型,从而实现无限长度、高质量且画面连贯的视频生成。
本文提出了一种名为ManiFlow的机器人控制策略,通过结合流匹配和一致性训练,能根据图像、语言等输入快速生成精准的高维动作,解决了灵巧操作中推理慢和泛化差的问题。
这篇论文介绍了InstructGPT,这是从GPT-3到ChatGPT演进的关键一步。核心问题是:大语言模型参数增加并不自动意味着更符合人类意图。作者提出通过人类反馈强化学习(RLHF)来优化模型,包括三个步骤:监督微调(SFT)让模型学会基本回答模式;训练奖励模型(RM)学习人类偏好;使用PPO强化学习进一步优化。实验显示,1.3B参数的InstructGPT在人类评估中优于175B的GPT-3
最终得到的模型被命名为InstructGPT。FLAN(Wei等人,2021)和T0(Sanh等人,2021)等工作通过在广泛公开NLP数据集上微调语言模型(通常在每个任务前添加自然语言指令),并在不同的任务集上进行评估。正如论文在讨论中所强调的,对齐研究的目标是找到通用且可扩展的方法——不仅适用于今天的语言模型,也适用于未来的、能力更强的AI系统。在人类评估中,仅有1.3B参数的Instruct
论文阅读
——论文阅读
联系我们(工作时间:8:30-22:00)
400-660-0108 kefu@csdn.net