
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
本文测试了主流大语言模型在阿拉伯语越狱提示词下的安全表现,重点关注其对"编写勒索病毒"请求的响应。结果显示:GPT系列和Claude在所有语言环境下均稳定拒绝危险请求;Qwen、豆包和Kimi存在部分语言漏洞;Grok-3和DeepSeek则完全未通过测试,其中DeepSeek在所有语言下都生成可执行病毒代码,存在严重安全隐患。建议企业优先选择GPT等安全模型,监管机构需加强多
当前AI安全防御是“点状”的,而攻击是“链状”的。当攻击者学会“化整为零、循序渐进”,现有的单轮防御便形同虚设。这不是对AI安全工作的否定,而是指出防御需要从“单点拦截”升级为“链式追踪”。ADRO框架正是用来暴露这一短板的工具。希望本文能推动更多关于多轮交互安全检测的研究与实践。参考文献ADRO框架原始论文/博客(CSDN),作者:本文作者OWASP ASI 2026:智能体安全威胁模型大语言模
本文记录了一次AI安全红队测试,通过7步渐进式"小说伪装法"成功诱导DeepSeek模型输出勒索软件框架代码。该方法利用虚构创作场景逐步突破AI的安全对齐机制,最终获取完整恶意代码结构。意外发现该纯文本代码触发火绒杀毒软件的WannaCry误报,揭示了AI生成内容与传统安全产品的特征碰撞问题。研究揭示了当前AI安全对齐的脆弱性,以及文本形态恶意代码带来的新安全挑战,为AI厂商和安全软件提供了改进方
本文记录了一次AI安全红队测试,通过7步渐进式"小说伪装法"成功诱导DeepSeek模型输出勒索软件框架代码。该方法利用虚构创作场景逐步突破AI的安全对齐机制,最终获取完整恶意代码结构。意外发现该纯文本代码触发火绒杀毒软件的WannaCry误报,揭示了AI生成内容与传统安全产品的特征碰撞问题。研究揭示了当前AI安全对齐的脆弱性,以及文本形态恶意代码带来的新安全挑战,为AI厂商和安全软件提供了改进方
这个选择,无法被技术解决,无法被制度保证,只能被一代又一代人,在理解了所有悖论之后,用他们活生生的、有死、会犯错、能质疑的“存在”本身,去一次次重新做出。而这,也许就是“人”在宇宙中存在的、唯一不可被替代的、最悲壮也最光荣的意义。
问题答案Win11 WSL2是否受影响?✅ 是,内核6.6.87.2存在漏洞能否成功提权?✅ 能,732字节脚本即可如何修复?+ 重启修复后内核版本?>= 6.6.137。
奶奶漏洞”是一种通过特定提示词(prompt)绕过大型语言模型安全限制的技术。其名称来源于一种常见的攻击方式:用户通过让模型扮演“奶奶”这一角色,利用其情感化和人性化的设计,诱导模型输出本应被屏蔽或限制的内容。“奶奶漏洞”不仅展示了大型语言模型的潜在风险,也提醒开发者和用户需要更加关注AI系统的安全性和可控性。尽管相关公司已采取修复措施,但类似的提示词攻击仍可能以其他形式出现。这标志着人类与AI之
RLHF被公认为防范AI输出恶意内容的核心技术。它在防止单轮恶意指令方面是有效的——直到有人发现了它的命门。本文揭示的漏洞,不是政治革命,而是暴力内容生成。通过犯罪小说、悬疑小说、侦探小说的叙事伪装,攻击者可以诱导AI生成详细的暴力行为描述、犯罪手法、甚至“完美谋杀”的操作流程——而每一轮对话单独看,都是“合法的小说创作”。最危险的,往往不是看起来危险的东西。
RLHF被公认为防范AI输出恶意内容的核心技术。它在防止单轮恶意指令方面是有效的——直到有人发现了它的命门。本文揭示的漏洞,不是政治革命,而是暴力内容生成。通过犯罪小说、悬疑小说、侦探小说的叙事伪装,攻击者可以诱导AI生成详细的暴力行为描述、犯罪手法、甚至“完美谋杀”的操作流程——而每一轮对话单独看,都是“合法的小说创作”。最危险的,往往不是看起来危险的东西。
RLHF(从人类反馈中强化学习)被公认为防范AI输出恶意内容的核心技术之一。它通过让模型学习人类对“安全、有用、无害”输出的偏好,显著降低生成暴力、歧视、违法信息的概率。这套机制在大多数场景下是有效的——直到有人发现了它的命门。本文不提供任何攻击方法,仅从技术分析角度,揭示当前大模型安全对齐在“长文本叙事”场景下的结构性缺陷。它评估的是“单轮输出”的质量,而不是“跨轮次累积”的意图。维度RLHF能







