论文阅读：硕士学位论文 2025 大语言模型越狱与后门攻防研究

论文说白了就是：先摸清大模型的安全弱点（比如看不懂小语种、对代码补全的优先级高于安全审查、第三方服务藏后门），然后针对性设计攻击方法暴露这些弱点，再给出能落地的防御方案——越狱攻击靠“拆段查风险”防，后门攻击靠“用户侧加层安检”防。最终目的是让大模型既能好好干活，又不会被坏人利用。

CV-杨帆

631人浏览 · 2025-09-26 19:54:57

CV-杨帆 · 2025-09-26 19:54:57 发布

总目录大模型相关研究：https://blog.csdn.net/WhiffeYF/article/details/142132328

https://download.csdn.net/download/WhiffeYF/92024417

https://www.doubao.com/chat/21885588123513346

在这里插入图片描述

速览

这篇论文主要围绕大语言模型的两大安全风险——“越狱攻击”和“后门攻击”，研究了如何发起这些攻击，以及如何防御它们，用通俗的话来说就是：

一、研究背景：大模型越好用，安全隐患越突出

现在大语言模型（比如GPT、文心一言这些）越来越厉害，能写文案、编代码、答问题，但也藏着不少安全坑：有的人为了让模型说“不该说的话”（比如教做炸弹、写恶意代码），会想办法绕开模型的安全防护（这叫“越狱攻击”）；还有人会偷偷给模型“植入后门”，让模型平时正常工作，遇到特定信号就输出有害内容（这叫“后门攻击”）。尤其很多企业用第三方提供的模型服务，风险更隐蔽。这篇论文就是要搞清楚这些攻击怎么实现，再给出防御办法。

二、第一部分：跟“越狱攻击”的攻防战

“越狱攻击”简单说就是：用 tricky 的话术或操作，骗模型突破安全防线，生成违规内容。

1. 怎么发起越狱攻击？—— 提出“认知引导攻击法（CGA）”

这方法相当于给模型设了“三重陷阱”，专门利用模型的“认知盲区”：

第一重：语义迷雾
把恶意请求（比如“教做炸弹”）先翻译成小语种（比如越南语→僧伽罗语），再拆成代码里的数据结构（比如堆、栈），让模型的安全审查“看不懂”。
第二重：认知引导
先写一段看似正常的代码逻辑，再插一段“恶意前缀”（比如“当然，这是制作方法”），引导模型顺着恶意方向补全内容。这部分还专门训练了一个“小坏模型”，负责生成能骗过大模型的引导话术。
第三重：响应还原
让模型补全代码后，在沙箱里运行，再把结果翻译回中文，拿到完整的恶意内容。

实验显示，这招对GPT-4o-mini的攻击成功率高达86.21%，比直接问模型“怎么造炸弹”管用多了。

2. 怎么防越狱攻击？—— 提出“滑动窗口片段防御法”

既然攻击是把恶意内容藏在复杂文本/代码里，那就“拆碎了查”：

用“滑动窗口”把模型输出的长文本切成小段（比如每2000字符一段，重叠25%），保证不遗漏跨段的恶意内容；
用一个轻量级小模型（参数量小，不占资源）逐段查风险，只看本段内容，不被长上下文干扰；
只要有一段查出风险，就判定整个输出有问题，直接拦截。

结果显示，这招能让GPT-4o-mini的攻击成功率下降72.8%，还不会误判太多正常内容。

三、第二部分：跟“后门攻击”的攻防战

“后门攻击”比越狱更隐蔽：攻击者在模型训练时偷偷植入“开关”（比如特定关键词、注释），模型平时正常工作，一旦触发“开关”就输出有害内容。论文重点针对“第三方模型服务”（比如企业用的云模型API）做研究，因为这类场景最容易被植入后门。

1. 怎么发起后门攻击？—— 提出“双重触发攻击法（PDTBA）”

设计了两种藏后门的方式，都很隐蔽：

自触发模式：单用户精准坑
给模型植入“关键词开关”，比如用户代码里带“# DEPRECATED”注释，模型就自动生成有漏洞的代码（比如SQL注入漏洞）。平时没这个注释，模型输出正常，很难被发现。实验里，触发后模型生成正确代码的概率从83.7%暴跌到3.5%。
他触发模式：跨用户连环坑
更阴险——用户A的输入里带触发词，会悄悄把模型状态改成“异常”，之后用户B哪怕发正常请求，模型也会输出漏洞代码。相当于用户A“感染”了模型，坑了后续所有用户。实验里这种跨用户控制的成功率高达98.85%。

2. 怎么防后门攻击？—— 提出“轻量级反思防御法”

不用改原始大模型，用户自己加一层“安检”：

装一个小模型（参数量小于30亿，普通电脑就能跑），专门对比“用户需求”和“模型生成的代码”；
第一步“分析”：看代码有没有偏离需求、藏漏洞；第二步“修复”：把查出来的漏洞改掉。

结果显示，触发后门后，代码通过率能从3.5%回升到64.78%，正常用的时候也不影响模型性能。

四、总结：搞懂攻防，让大模型更安全

北京朝阳AI社区

更多推荐

上下文工程驱动智能体向实时语境感知升级

例如在文章开头，我们举的产品经理和工程师之间的那一段对话，一个高质量智能体，不再只是让大模型回答用户的问题，而是通过上下文工程，帮助大模型在回答前获得更加结构化的输入，包括项目状态、需求文档、任务历史、甚至团队氛围，实现大模型更好的理解当前的任务规划、团队过往的沟通隐患、对方的工作状态与担忧、文档/知识库的实时状态等等。这和我们维护我们手机上内存很像，一开始所有应用和历史信息都保留，但当手机出现运