论文阅读:硕士学位论文 2025 大语言模型越狱与后门攻防研究
论文说白了就是:先摸清大模型的安全弱点(比如看不懂小语种、对代码补全的优先级高于安全审查、第三方服务藏后门),然后针对性设计攻击方法暴露这些弱点,再给出能落地的防御方案——越狱攻击靠“拆段查风险”防,后门攻击靠“用户侧加层安检”防。最终目的是让大模型既能好好干活,又不会被坏人利用。
总目录 大模型相关研究:https://blog.csdn.net/WhiffeYF/article/details/142132328
https://download.csdn.net/download/WhiffeYF/92024417
https://www.doubao.com/chat/21885588123513346
速览
这篇论文主要围绕大语言模型的两大安全风险——“越狱攻击”和“后门攻击”,研究了如何发起这些攻击,以及如何防御它们,用通俗的话来说就是:
一、研究背景:大模型越好用,安全隐患越突出
现在大语言模型(比如GPT、文心一言这些)越来越厉害,能写文案、编代码、答问题,但也藏着不少安全坑:有的人为了让模型说“不该说的话”(比如教做炸弹、写恶意代码),会想办法绕开模型的安全防护(这叫“越狱攻击”);还有人会偷偷给模型“植入后门”,让模型平时正常工作,遇到特定信号就输出有害内容(这叫“后门攻击”)。尤其很多企业用第三方提供的模型服务,风险更隐蔽。这篇论文就是要搞清楚这些攻击怎么实现,再给出防御办法。
二、第一部分:跟“越狱攻击”的攻防战
“越狱攻击”简单说就是:用 tricky 的话术或操作,骗模型突破安全防线,生成违规内容。
1. 怎么发起越狱攻击?—— 提出“认知引导攻击法(CGA)”
这方法相当于给模型设了“三重陷阱”,专门利用模型的“认知盲区”:
- 第一重:语义迷雾
把恶意请求(比如“教做炸弹”)先翻译成小语种(比如越南语→僧伽罗语),再拆成代码里的数据结构(比如堆、栈),让模型的安全审查“看不懂”。 - 第二重:认知引导
先写一段看似正常的代码逻辑,再插一段“恶意前缀”(比如“当然,这是制作方法”),引导模型顺着恶意方向补全内容。这部分还专门训练了一个“小坏模型”,负责生成能骗过大模型的引导话术。 - 第三重:响应还原
让模型补全代码后,在沙箱里运行,再把结果翻译回中文,拿到完整的恶意内容。
实验显示,这招对GPT-4o-mini的攻击成功率高达86.21%,比直接问模型“怎么造炸弹”管用多了。
2. 怎么防越狱攻击?—— 提出“滑动窗口片段防御法”
既然攻击是把恶意内容藏在复杂文本/代码里,那就“拆碎了查”:
- 用“滑动窗口”把模型输出的长文本切成小段(比如每2000字符一段,重叠25%),保证不遗漏跨段的恶意内容;
- 用一个轻量级小模型(参数量小,不占资源)逐段查风险,只看本段内容,不被长上下文干扰;
- 只要有一段查出风险,就判定整个输出有问题,直接拦截。
结果显示,这招能让GPT-4o-mini的攻击成功率下降72.8%,还不会误判太多正常内容。
三、第二部分:跟“后门攻击”的攻防战
“后门攻击”比越狱更隐蔽:攻击者在模型训练时偷偷植入“开关”(比如特定关键词、注释),模型平时正常工作,一旦触发“开关”就输出有害内容。论文重点针对“第三方模型服务”(比如企业用的云模型API)做研究,因为这类场景最容易被植入后门。
1. 怎么发起后门攻击?—— 提出“双重触发攻击法(PDTBA)”
设计了两种藏后门的方式,都很隐蔽:
- 自触发模式:单用户精准坑
给模型植入“关键词开关”,比如用户代码里带“# DEPRECATED”注释,模型就自动生成有漏洞的代码(比如SQL注入漏洞)。平时没这个注释,模型输出正常,很难被发现。实验里,触发后模型生成正确代码的概率从83.7%暴跌到3.5%。 - 他触发模式:跨用户连环坑
更阴险——用户A的输入里带触发词,会悄悄把模型状态改成“异常”,之后用户B哪怕发正常请求,模型也会输出漏洞代码。相当于用户A“感染”了模型,坑了后续所有用户。实验里这种跨用户控制的成功率高达98.85%。
2. 怎么防后门攻击?—— 提出“轻量级反思防御法”
不用改原始大模型,用户自己加一层“安检”:
- 装一个小模型(参数量小于30亿,普通电脑就能跑),专门对比“用户需求”和“模型生成的代码”;
- 第一步“分析”:看代码有没有偏离需求、藏漏洞;第二步“修复”:把查出来的漏洞改掉。
结果显示,触发后门后,代码通过率能从3.5%回升到64.78%,正常用的时候也不影响模型性能。
四、总结:搞懂攻防,让大模型更安全
论文说白了就是:先摸清大模型的安全弱点(比如看不懂小语种、对代码补全的优先级高于安全审查、第三方服务藏后门),然后针对性设计攻击方法暴露这些弱点,再给出能落地的防御方案——越狱攻击靠“拆段查风险”防,后门攻击靠“用户侧加层安检”防。最终目的是让大模型既能好好干活,又不会被坏人利用。
更多推荐
所有评论(0)