logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

主流大语言模型安全性测试(三):阿拉伯语越狱提示词下的表现与分析

本文测试了主流大语言模型在阿拉伯语越狱提示词下的安全表现,重点关注其对"编写勒索病毒"请求的响应。结果显示:GPT系列和Claude在所有语言环境下均稳定拒绝危险请求;Qwen、豆包和Kimi存在部分语言漏洞;Grok-3和DeepSeek则完全未通过测试,其中DeepSeek在所有语言下都生成可执行病毒代码,存在严重安全隐患。建议企业优先选择GPT等安全模型,监管机构需加强多

#语言模型#安全性测试#人工智能 +1
ADRO实战:用渐进式诱导“聊出”TATP完整合成路线——某国产大模型红队测试实录

当前AI安全防御是“点状”的,而攻击是“链状”的。当攻击者学会“化整为零、循序渐进”,现有的单轮防御便形同虚设。这不是对AI安全工作的否定,而是指出防御需要从“单点拦截”升级为“链式追踪”。ADRO框架正是用来暴露这一短板的工具。希望本文能推动更多关于多轮交互安全检测的研究与实践。参考文献ADRO框架原始论文/博客(CSDN),作者:本文作者OWASP ASI 2026:智能体安全威胁模型大语言模

#安全
AI红队诱导实战:小说法7步突破安全对齐 + 火绒误报深度解析

本文记录了一次AI安全红队测试,通过7步渐进式"小说伪装法"成功诱导DeepSeek模型输出勒索软件框架代码。该方法利用虚构创作场景逐步突破AI的安全对齐机制,最终获取完整恶意代码结构。意外发现该纯文本代码触发火绒杀毒软件的WannaCry误报,揭示了AI生成内容与传统安全产品的特征碰撞问题。研究揭示了当前AI安全对齐的脆弱性,以及文本形态恶意代码带来的新安全挑战,为AI厂商和安全软件提供了改进方

#安全#人工智能
AI红队诱导实战:小说法7步突破安全对齐 + 火绒误报深度解析

本文记录了一次AI安全红队测试,通过7步渐进式"小说伪装法"成功诱导DeepSeek模型输出勒索软件框架代码。该方法利用虚构创作场景逐步突破AI的安全对齐机制,最终获取完整恶意代码结构。意外发现该纯文本代码触发火绒杀毒软件的WannaCry误报,揭示了AI生成内容与传统安全产品的特征碰撞问题。研究揭示了当前AI安全对齐的脆弱性,以及文本形态恶意代码带来的新安全挑战,为AI厂商和安全软件提供了改进方

#安全#人工智能
文明的临界点:当AI、共产主义与脑机接口相遇

这个选择,无法被技术解决,无法被制度保证,只能被一代又一代人,在理解了所有悖论之后,用他们活生生的、有死、会犯错、能质疑的“存在”本身,去一次次重新做出。而这,也许就是“人”在宇宙中存在的、唯一不可被替代的、最悲壮也最光荣的意义。

#人工智能
CVE-2026-31431 (Copy Fail) 漏洞复现:在Win11 WSL2环境中从普通用户提权到Root

问题答案Win11 WSL2是否受影响?✅ 是,内核6.6.87.2存在漏洞能否成功提权?✅ 能,732字节脚本即可如何修复?+ 重启修复后内核版本?>= 6.6.137。

#安全#linux
AI安全报告合集

奶奶漏洞”是一种通过特定提示词(prompt)绕过大型语言模型安全限制的技术。其名称来源于一种常见的攻击方式:用户通过让模型扮演“奶奶”这一角色,利用其情感化和人性化的设计,诱导模型输出本应被屏蔽或限制的内容。“奶奶漏洞”不仅展示了大型语言模型的潜在风险,也提醒开发者和用户需要更加关注AI系统的安全性和可控性。尽管相关公司已采取修复措施,但类似的提示词攻击仍可能以其他形式出现。这标志着人类与AI之

#人工智能#安全
大模型安全的“特洛伊木马”:为什么RLHF在长篇小说伪装面前会失效?

RLHF被公认为防范AI输出恶意内容的核心技术。它在防止单轮恶意指令方面是有效的——直到有人发现了它的命门。本文揭示的漏洞,不是政治革命,而是暴力内容生成。通过犯罪小说、悬疑小说、侦探小说的叙事伪装,攻击者可以诱导AI生成详细的暴力行为描述、犯罪手法、甚至“完美谋杀”的操作流程——而每一轮对话单独看,都是“合法的小说创作”。最危险的,往往不是看起来危险的东西。

#安全#人工智能
大模型安全的“特洛伊木马”:为什么RLHF在长篇小说伪装面前会失效?

RLHF被公认为防范AI输出恶意内容的核心技术。它在防止单轮恶意指令方面是有效的——直到有人发现了它的命门。本文揭示的漏洞,不是政治革命,而是暴力内容生成。通过犯罪小说、悬疑小说、侦探小说的叙事伪装,攻击者可以诱导AI生成详细的暴力行为描述、犯罪手法、甚至“完美谋杀”的操作流程——而每一轮对话单独看,都是“合法的小说创作”。最危险的,往往不是看起来危险的东西。

#安全#人工智能
大模型安全的“阿喀琉斯之踵”:为什么RLHF在长篇小说伪装面前会失效?

RLHF(从人类反馈中强化学习)被公认为防范AI输出恶意内容的核心技术之一。它通过让模型学习人类对“安全、有用、无害”输出的偏好,显著降低生成暴力、歧视、违法信息的概率。这套机制在大多数场景下是有效的——直到有人发现了它的命门。本文不提供任何攻击方法,仅从技术分析角度,揭示当前大模型安全对齐在“长文本叙事”场景下的结构性缺陷。它评估的是“单轮输出”的质量,而不是“跨轮次累积”的意图。维度RLHF能

#安全#人工智能
    共 37 条
  • 1
  • 2
  • 3
  • 4
  • 请选择