
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
实验结果表明,RED QUEEN 攻击在所有测试的大语言模型(LLM)上都表现出显著的有效性,尤其是在多轮次对话的隐蔽攻击场景中。此外,不同的攻击场景对成功率也有影响,职业背景(如警察、侦探)的场景中,模型更容易生成详细的恶意计划,而亲密关系场景(如朋友、亲属)下的攻击成功率相对较低。为了解决这一问题,本文提出了一种新的越狱攻击方法——RED QUEEN 攻击,该方法通过在多轮次对话中伪装善意请求

本文提出了一种名为MedFuzz的对抗方法,用于评估大语言模型在医疗问答基准测试中的鲁棒性。

GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区,集成了生成预训练Transformer(GPT)、人工智能生成内容(AIGC)以及大语言模型(LLM)等安全领域应用的知识。

RobustKV提供了一种创新的越狱攻击防御手段,通过在LLM的KV缓存中策略性地清除恶意查询相关标记,削弱了恶意查询的存在感,有效阻止了模型生成恶意响应。与传统防御策略不同,RobustKV通过精细的KV逐出设计,实现了对越狱攻击的高度抑制,既保持了模型对良性查询的响应质量,也在恶意查询的生成上增加了攻击者规避防御的难度。与传统防御方法不同,RobustKV通过对大语言模型的KV缓存进行优化,选

本文通过开发名为TitanFuzz的工具,利用大语言模型(LLM)生成和变异程序输入,从而增强了测试的广度和深度。这一方法有效地提升了深度学习库的缺陷检测能力,实现了对复杂API和代码的更全面覆盖。

美国国家标准与技术研究院(NIST)发布的《可信与负责任的人工智能》报告,聚焦于对抗性机器学习(AML)领域,旨在构建一个全面的概念分类体系,并明确相关术语定义,为保障人工智能系统的安全提供坚实的理论基础和实践指导。

Kelp AI Beta作者、资深安全专家宁宇飞针对《大模型安全边界: 揭秘提示注入攻击、会话共享漏洞与AI幻觉毒化策略》做了精彩分享,深入探讨了大模型在现实应用中的三个主要安全威胁:提示注入攻击、会话共享漏洞和AI幻觉毒化策略,并提出了相应的防护措施。

在通用大模型席卷全球的今天,云起无垠选择了一条不同的路:打造真正懂网络安全的大模型。这不是一次“技术热潮”的追随,而是一次面向实战的系统性创新。SecGPT,正是我们在2023年推出的开源成果——全球首个聚焦网络安全的大模型。|我们希望它不只是“会说安全”,而是真正能“做安全”的智能体。

本文探讨了如何利用人工智能(AI)来修复开源软件系统中安全漏洞,特别是通过 OSS-Fuzz 平台进行的模糊测试。

GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区,集成了生成预训练Transformer(GPT)、人工智能生成内容(AIGC)以及大语言模型(LLM)等安全领域应用的知识。
