logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【论文速读】| RED QUEEN: 保护大语言模型免受隐蔽多轮越狱攻击

实验结果表明,RED QUEEN 攻击在所有测试的大语言模型(LLM)上都表现出显著的有效性,尤其是在多轮次对话的隐蔽攻击场景中。此外,不同的攻击场景对成功率也有影响,职业背景(如警察、侦探)的场景中,模型更容易生成详细的恶意计划,而亲密关系场景(如朋友、亲属)下的攻击成功率相对较低。为了解决这一问题,本文提出了一种新的越狱攻击方法——RED QUEEN 攻击,该方法通过在多轮次对话中伪装善意请求

文章图片
#语言模型#人工智能#自然语言处理
【论文速读】|MEDFUZZ:探索大语言模型在医学问题回答中的鲁棒性

本文提出了一种名为MedFuzz的对抗方法,用于评估大语言模型在医疗问答基准测试中的鲁棒性。

文章图片
#语言模型#人工智能#自然语言处理
第46期 | GPTSecurity周报

GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区,集成了生成预训练Transformer(GPT)、人工智能生成内容(AIGC)以及大语言模型(LLM)等安全领域应用的知识。

文章图片
#人工智能#AIGC#网络安全 +1
【论文速读】| RobustKV:通过键值对驱逐防御大语言模型免受越狱攻击

RobustKV提供了一种创新的越狱攻击防御手段,通过在LLM的KV缓存中策略性地清除恶意查询相关标记,削弱了恶意查询的存在感,有效阻止了模型生成恶意响应。与传统防御策略不同,RobustKV通过精细的KV逐出设计,实现了对越狱攻击的高度抑制,既保持了模型对良性查询的响应质量,也在恶意查询的生成上增加了攻击者规避防御的难度。与传统防御方法不同,RobustKV通过对大语言模型的KV缓存进行优化,选

文章图片
#语言模型#人工智能#自然语言处理
【论文速读】|大语言模型是零样本模糊测试器:通过大语言模型对深度学习库进行模糊测试

本文通过开发名为TitanFuzz的工具,利用大语言模型(LLM)生成和变异程序输入,从而增强了测试的广度和深度。这一方法有效地提升了深度学习库的缺陷检测能力,实现了对复杂API和代码的更全面覆盖。

文章图片
#语言模型#深度学习#人工智能
NIST人工智能报告:对抗性机器学习分类与术语全解析(附原文)

美国国家标准与技术研究院(NIST)发布的《可信与负责任的人工智能》报告,聚焦于对抗性机器学习(AML)领域,旨在构建一个全面的概念分类体系,并明确相关术语定义,为保障人工智能系统的安全提供坚实的理论基础和实践指导。

文章图片
#人工智能#机器学习#分类
精彩回顾!大模型安全边界:揭秘提示注入攻击、会话共享漏洞与AI幻觉毒化策略分享

Kelp AI Beta作者、资深安全专家宁宇飞针对《大模型安全边界: 揭秘提示注入攻击、会话共享漏洞与AI幻觉毒化策略》做了精彩分享,深入探讨了大模型在现实应用中的三个主要安全威胁:提示注入攻击、会话共享漏洞和AI幻觉毒化策略,并提出了相应的防护措施。

文章图片
#人工智能#安全#网络
重大升级 | SecGPT V2.0:打造真正“懂安全”的大模型

在通用大模型席卷全球的今天,云起无垠选择了一条不同的路:打造真正懂网络安全的大模型。这不是一次“技术热潮”的追随,而是一次面向实战的系统性创新。SecGPT,正是我们在2023年推出的开源成果——全球首个聚焦网络安全的大模型。|我们希望它不只是“会说安全”,而是真正能“做安全”的智能体。

文章图片
#安全
【论文速读】| 利用人工智能修复 OSS-Fuzz 中的安全漏洞

本文探讨了如何利用人工智能(AI)来修复开源软件系统中安全漏洞,特别是通过 OSS-Fuzz 平台进行的模糊测试。

文章图片
#人工智能#网络安全
第53期|GPTSecurity周报

GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区,集成了生成预训练Transformer(GPT)、人工智能生成内容(AIGC)以及大语言模型(LLM)等安全领域应用的知识。

文章图片
#语言模型#人工智能#安全
    共 89 条
  • 1
  • 2
  • 3
  • 9
  • 请选择