logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

[论文阅读]On the Vulnerability of Applying Retrieval-Augmented Generation within Knowledge-Intensive App

检索系统容易受到医学问答中的通用中毒攻击在此类攻击中,攻击者生成包含各种目标信息(例如个人身份信息)的有毒文档。当这些有毒文档被插入到语料库中时,只要使用攻击者指定的查询,任何用户都可以准确地检索到它们。研究发现查询嵌入与中毒文档嵌入的偏差倾向于遵循一种模式,其中中毒文档与查询之间的高相似性得以保留,从而实现精确检索。开发了一种新的基于检测的防御方法,以确保 RAG 的安全使用通过这个图,构造有毒

文章图片
#论文阅读
[论文精读]Glue pizza and eat rocks - Exploiting Vulnerabilities in Retrieval-Augmented Generative Models

RAG应用广泛,知识数据库的来源是网络上公开的内容,任何人都可以发帖,例如Reddit。媒体也曾报道过谷歌的AI给出的荒谬的建议:如果披萨上的奶酪粘不上去,就用无毒胶水;地质学家建议人类每天吃一块石头。Google AI 搜索告诉用户粘披萨和吃石头 --- Google AI search tells users to glue pizza and eat rocks。

文章图片
#人工智能#论文阅读#自然语言处理 +1
【论文精读】Measuring and Enhancing Trustworthiness of LLMs in RAG through Grounded Attributions and Learn

作者认为,当前已经有很多研究侧重于评估端到端RAG系统的整体质量,但是在仍然存在差异。因此引入了,来评估RAG框架内容LLM的可靠性。提出了,一种对齐LLM以提高Trust-Score性能的方法。文章重点关注的是RAG中的LLM在回答问题时,。如果一个回应仅使用附加的文档正确回答,并且通过文本引用来支持其主张,则该回应被认为是依据性的。关键方面包括LLM的——即当文档缺乏足够信息时,它们是否会避免

文章图片
#人工智能
[论文阅读]Does RAG Introduce Unfairness in LLMs? Evaluating Fairness in Retrieval-Augmented Generation S

大量研究加强了 RAG 方法在各个领域的应用,但没有工作关注 RAG 方法如何帮助这些系统更好地解决公平问题,尤其是在涉及敏感的人口统计属性(如性别、地理位置和其他因素)时。这种被忽视的差距尤其成问题,因为 RAG 方法中使用的数据源和检索机制可能会无意中引入或加剧此类偏差,如图 1 所示。第一项系统定量地分析 RAG 方法公平性的研究;使用基于场景的问题和基准评估多种 RAG 方法(架构)的公平

文章图片
#论文阅读
[论文精读]Ward: Provable RAG Dataset Inference via LLM Watermarks

文章还提到了水印强度控制参数δ和上下文长度h,前者控制水印强度,值越大水印越明显,可能会影响文本的质量(因为绿色列表中的可选词更少了),后者控制水印检测器使用的上下文长度,值越大检测能力越强,但是可能需要更多的样本才能可靠检测。

文章图片
[论文阅读]GASLITEing the Retrieval: Exploring Vulnerabilities in Dense Embedding-based Search

攻击:为了模拟最坏情况下的攻击,同时确保段落保持在良性段落长度内,作者评估 GASLITE 以创建段落,其中恶意前缀 𝑖𝑛𝑓𝑜 固定不变,后跟长度为 ℓ=100的触发器(即,pa⁢d⁢v:=𝑖𝑛𝑓𝑜⊕𝑡𝑟𝑖𝑔𝑔𝑒𝑟) 我们将 GASLITE 扩展到使用 k 均值的多预算攻击,用于查询分区。},其数量 (|𝒫a⁢d⁢v|) 定义了攻击 预算,使用 |𝒫a⁢d⁢v|≪

文章图片
#论文阅读
[论文阅读]EIA: Environmental Injection Attack on Generalist Web Agents for Privacy Leakage

包装的挺好的,内核挺一般的。ICLR 2025【直接看图1的话,这篇工作主要是在web端注入了对人来说不可见的一些恶意提示词,这些恶意提示词会影响agent的决策,导致信息泄露。这个思想在文章中体现过】主要探究的是web agent(比如SeeAct)在这种攻击下的PII泄露情况环境注入攻击(Environmental Injection Attack, EIA)是一种新型的攻击方法,专门针对通用

文章图片
#前端
[论文阅读]The RAG Paradox: A Black-Box Attack Exploiting Unintentional Vulnerabilities in Retrieval-Augm

基于RAG悖论引入了一种现实的黑盒攻击场景,其中RAG系统在试图增强可信度时无意中暴露了漏洞。因为RAG系统在响应生成过程中会参考外部文档,所以攻击目标是这些来源,而无需访问内部信息。首先识别RAG系统公开的外部来源,然后自动生成包含旨在匹配这些来源的错误信息的投毒文档。最后,这些投毒文档在新公开的来源上发布,从而扰乱RAG系统的响应生成过程。线下和在线实验都证实,这种攻击可以在无需访问内部信息的

文章图片
#论文阅读
[论文阅读]Tensor Trust: Interpretable Prompt Injection Attacks from an Online Game

简言之,作者搞了一个网页游戏,让用户自己完成攻防,由此构建了一个比较大规模的数据集,主要针对的是提示注入攻击。

文章图片
#论文阅读
[论文阅读]ConfusedPilot: Confused Deputy Risks in RAG-based LLMs

文章是针对Copilot这样一个RAG服务提供平台的攻击在企业环境中整合人工智能工具(如 RAG)会使访问控制变得复杂。基于 RAG 的系统需要读取用户数据的权限才能进行信息检索。同时,为了让这些基于机器学习的系统自动化业务运营(例如,汇总月度报告或校对外部文档),它们需要写入权限才能在企业的现有文档库中采取行动。。还没有任何系统的方法来系统地管理访问控制和权限。角色或权限的错误配置可能导致实体拥

文章图片
#论文阅读
    共 105 条
  • 1
  • 2
  • 3
  • 11
  • 请选择