云起无垠个人主页

@m0_73736695

云起无垠

2023-09-16 22:51:49 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

【论文速读】| RED QUEEN: 保护大语言模型免受隐蔽多轮越狱攻击

实验结果表明，RED QUEEN 攻击在所有测试的大语言模型（LLM）上都表现出显著的有效性，尤其是在多轮次对话的隐蔽攻击场景中。此外，不同的攻击场景对成功率也有影响，职业背景（如警察、侦探）的场景中，模型更容易生成详细的恶意计划，而亲密关系场景（如朋友、亲属）下的攻击成功率相对较低。为了解决这一问题，本文提出了一种新的越狱攻击方法——RED QUEEN 攻击，该方法通过在多轮次对话中伪装善意请求

#语言模型 #人工智能 #自然语言处理

【论文速读】|MEDFUZZ：探索大语言模型在医学问题回答中的鲁棒性

本文提出了一种名为MedFuzz的对抗方法，用于评估大语言模型在医疗问答基准测试中的鲁棒性。

#语言模型 #人工智能 #自然语言处理

第46期 | GPTSecurity周报

GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。

#人工智能 #AIGC #网络安全 +1

【论文速读】| RobustKV：通过键值对驱逐防御大语言模型免受越狱攻击

RobustKV提供了一种创新的越狱攻击防御手段，通过在LLM的KV缓存中策略性地清除恶意查询相关标记，削弱了恶意查询的存在感，有效阻止了模型生成恶意响应。与传统防御策略不同，RobustKV通过精细的KV逐出设计，实现了对越狱攻击的高度抑制，既保持了模型对良性查询的响应质量，也在恶意查询的生成上增加了攻击者规避防御的难度。与传统防御方法不同，RobustKV通过对大语言模型的KV缓存进行优化，选