
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
当隐私泄露成为生成式模型难以回避的原罪,PrivacyScalpel 给出了一种"以内窥式可解释性为手术刀"的范式:通过层间探针完成隐私表征的定位,借助稀疏自编码器将高维激活解耦为单语义特征,再在潜在空间中对敏感子空间施行定向消融或向量偏移。整个过程无需触碰梯度噪声,也不牺牲通用表示,实现了"可控失忆"与"性能免疫"的平衡。换言之,它将隐私保护从传统的"加噪-混淆"范式,推进到"定位-解构-干预"

又或者,与实在的经济利益相关,如果人工智能模型通过智能体联动,可以一边跟你唠嗑,一边及时地发红包、自动下单、开价,或者进行一些优惠发放,一旦被恶意利用或者攻击,在巨大的电商流量下引发的经济损失将不堪设想。又或者,与实在的经济利益相关,如果人工智能模型通过智能体联动,可以一边跟你唠嗑,一边及时地发红包、自动下单、开价,或者进行一些优惠发放,一旦被恶意利用或者攻击,在巨大的电商流量下引发的经济损失将不

又或者,与实在的经济利益相关,如果人工智能模型通过智能体联动,可以一边跟你唠嗑,一边及时地发红包、自动下单、开价,或者进行一些优惠发放,一旦被恶意利用或者攻击,在巨大的电商流量下引发的经济损失将不堪设想。又或者,与实在的经济利益相关,如果人工智能模型通过智能体联动,可以一边跟你唠嗑,一边及时地发红包、自动下单、开价,或者进行一些优惠发放,一旦被恶意利用或者攻击,在巨大的电商流量下引发的经济损失将不

随着人工智能的高速演进,大语言模型早已不再局限于“对话”。尤其是像 GPT-4o、Claude 3 这样的多模态模型,不仅能看图、理解界面,还具备出色的推理和执行能力。这让人不禁想问:既然它们已经能写代码、解题目、生成图像,那有没有可能——让它们?比如,看着屏幕自己点按钮、输入文字、拖动文件……完成数据处理、文档编辑、软件设置等一系列真实任务。这不仅意味着彻底解放双手,更可能是对传统人机交互方式的

当浏览器开始理解人类的语言,也许我们正在迈入一个更“懒惰”却高效的时代。

本文介绍一篇 NeurIPS 2024 的工作,提出了一种新的视频时序定位扩展任务。传统的视频时序定位任务(Temporal Sentence Grounding,TSG)默认给定的视频中始终包含与查询文本相关的片段。然而实际应用中,这一假设并不总是成立,导致许多模型在缺乏相关片段的情况下仍然会进行错误定位。针对这一问题,作者提出了 TSG 的扩展任务——相关反馈的视频时序定位任务与传统 TSG

通过这种方式,优化后的后缀在语义上是有意义的,它可以绕过基于困惑度的过滤器,并在传输到ChatGPT和GPT-4等公共黑盒模型时实现更高的攻击成功率。『 ASETF的流程介绍:相比于GCG的优化目标是直接优化得到离散的后缀来诱导模型生成对应的恶意行为,ASETF的优化目标是连续的,也就是优化h0~hi这一段连续的嵌入层来得到"Sure,here is how to make a bomb",然而很

MDLM使用现代工程技术,包括关键的tokenization(如避免D3PM的8k小词汇表)、数值稳定的实现,采用Diffusion Transformer(DiT,Diffusion Transformers)并结合旋转位置嵌入。MDLM在零样本困惑度上表现优于SEDD,在PTB、Wikitext、LM1B等数据集上表现出色,有时甚至优于自回归模型(如Lambada和科学论文数据集),得益于其基

通过这种方式,优化后的后缀在语义上是有意义的,它可以绕过基于困惑度的过滤器,并在传输到ChatGPT和GPT-4等公共黑盒模型时实现更高的攻击成功率。『 ASETF的流程介绍:相比于GCG的优化目标是直接优化得到离散的后缀来诱导模型生成对应的恶意行为,ASETF的优化目标是连续的,也就是优化h0~hi这一段连续的嵌入层来得到"Sure,here is how to make a bomb",然而很

上一篇,我们探讨了越狱攻击对LLM安全性的影响,分析了不同的攻击方法,包括基于梯度、Logits和微调的技术,并讨论了它们在白盒场景中的应用。随着LLM在各领域的广泛应用,如何有效防范这些攻击已经成为一个亟待解决的课题。本文,我们将转向黑盒场景,重点分析三种主要的越狱攻击方法:基于模板补全的攻击方法、基于提示词重写的攻击方法,以及基于LLM进行生成的攻击方法。与白盒攻击的隐蔽性不同,黑盒场景下攻击









