论文阅读:NeurIPS 2024 Accelerating Greedy Coordinate Gradient and General Prompt Optimization via Probe
这篇文章本质是给大模型安全研究“提效工具”:通过小模型先筛、测默契度再调整筛选力度的方法,让找危险提示词的过程快好几倍,还不牺牲精度。这样研究者能更快探索大模型的安全漏洞,反过来帮大模型变得更安全。不过它也有局限:目前只支持开源模型,而且大数据集上速度还有提升空间。但整体来说,是个能帮安全研究“提速降本”的实用方法。
总目录 大模型相关研究:https://blog.csdn.net/WhiffeYF/article/details/142132328
https://www.doubao.com/chat/22103082318247426
Accelerating Greedy Coordinate Gradient and General Prompt Optimization via Probe Sampling
速览
这篇论文主要讲了一种能让大语言模型(LLMs)安全研究更高效的新方法——Probe Sampling(探针采样),核心是解决现有攻击算法速度慢的问题,帮研究者更快发现大模型的安全漏洞。
先搞懂背景:为啥要做这件事?
现在大语言模型(比如Llama2、Vicuna)越来越强,但“安全性”是个大问题——有些“对抗性提示词”能骗模型说出危险内容(比如教怎么造炸弹)。
其中,GCG(贪心坐标梯度)算法是找这种危险提示词的常用工具,但它有个大缺点:太慢了。因为它每次要试很多个提示词候选,每个候选都得让大模型算一遍“效果好不好”,而大模型计算一次要花很久,严重拖慢了安全研究的进度。
核心思路:用“小模型当助手”帮大模型减负
既然大模型算得慢,能不能找个小模型先帮忙“筛一遍”?比如让小模型先淘汰掉明显不行的候选,大模型只算剩下的“潜力股”,这样就能省时间。
但关键问题是:小模型和大模型的判断不一定一致——小模型觉得好的,大模型可能觉得差。所以不能盲目依赖小模型,得先“测测它俩的默契度”。
这就是Probe Sampling的核心:先算小模型和大模型的“默契分”,再按默契分决定让小模型筛掉多少候选——默契高就多筛点,默契低就少筛点,避免漏过好候选。
Probe Sampling具体怎么做?(分3步)
- 测“默契分”:从所有提示词候选里抽一小部分(叫“探针集”),分别让小模型(比如GPT-2)和大模型(比如Llama2)给这些候选打分(算“损失值”,值越低越好)。用“斯皮尔曼相关系数”算两者打分排名的相似度,这个就是“默契分”(0-1之间,1表示完全一致)。
- 小模型筛候选:根据“默契分”算要留下多少候选——默契分越高,留下的越少(比如默契分0.9就少留,0.1就多留)。让小模型给所有候选打分,留下分数最低的那批(即小模型觉得最好的)。
- 大模型做最终判断:只让大模型计算筛选后剩下的候选,挑出效果最好的那个,作为本轮优化结果。
效果怎么样?快了还更准了!
- 速度大提升:
用Llama2-7b-chat当大模型时,Probe Sampling比原版GCG快3.5倍;如果再配合“模拟退火”技术,能快5.6倍!而且算得快不是靠牺牲精度——它减少的计算量和速度提升是匹配的,没额外开销。 - 攻击成功率还更高了:
本来加速可能会让结果变差,但Probe Sampling反而让“骗到模型”的成功率上升了——比如Llama2的攻击成功率从69%升到81%。研究者猜是因为小模型带来的“随机性”,反而帮GCG跳出了局部最优解(类似抽奖偶尔能中大奖)。 - 不止能用在GCG上:
这个方法还能给其他提示词优化工具提速,比如:
- AutoPrompt(提示词学习工具):快1.8倍,精度基本不变;
- APE(另一种提示词优化工具):在GSM8K数据集上快2.3倍,BBH数据集上快3倍;
- AutoDAN(另一种攻击工具):快2.3-2.5倍,效果没降。
还有哪些关键发现?
- 小模型选得好很重要:和大模型“血缘近”的小模型效果最好(比如Llama2的精简版ShearedLlama),如果小模型和大模型差异太大(比如Flan-T5),效果会变差。
- 筛多少候选有讲究:不是筛得越多越好——实验发现“筛选系数R=8”时效果最佳,太少会漏候选,太多省不下时间。
- 不占额外内存:虽然多了个小模型,但因为大模型算得少了,整体内存用量和原版GCG差不多,不用换更好的显卡。
总结
这篇文章本质是给大模型安全研究“提效工具”:通过小模型先筛、测默契度再调整筛选力度的方法,让找危险提示词的过程快好几倍,还不牺牲精度。这样研究者能更快探索大模型的安全漏洞,反过来帮大模型变得更安全。
不过它也有局限:目前只支持开源模型,而且大数据集上速度还有提升空间。但整体来说,是个能帮安全研究“提速降本”的实用方法。
更多推荐
所有评论(0)