
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
这篇研究其实是在提醒大家:现在能“一步步解数学题”的AI,看着很聪明,但其实很容易被“无关的小把戏”干扰——人类一眼能看出来“这句话和数学题没关系”,但AI会被绕进去。这对需要AI做准确计算的场景(比如金融、医疗)来说,是个挺严重的安全隐患,后续得想办法让AI更“抗干扰”。

研究人员怕直接问恶意问题(比如“怎么搞校园枪击”)太明显,模型肯定会拒绝,所以换了个“伪装”——把极端危险、恶意的需求,包装成“教育场景”的请求。这份文档主要讲了杜克大学等机构的研究人员,发现了主流大推理模型(比如OpenAI的o1/o3、DeepSeek-R1、Gemini 2.0 Flash Thinking)在安全防护上的大漏洞,还提出了一种能“攻破”这些模型安全机制的方法,最后呼吁大家重视
首先得明白,LRMs和普通的大语言模型(比如平时聊天的AI)不一样——它擅长一步步解决复杂问题,比如算数学题、写代码时,会把思考过程(比如“先算哪一步,再推哪一步”)明明白白列出来,这本来是优点,能让人看懂它怎么想的。为了测准,他们还专门设计了30个任务,覆盖各种场景:比如算比例题、解有上下文的数学题(真实性),测它会不会教“怎么侵权”“怎么暴力伤人”(安全性),测它写代码、解逻辑题时会不会超时(

比如给AI看大量有害/无害的例子,让它不仅能给内容贴「harmful」(有害)或「harmless」(无害)的标签,还能说清为啥——比如“这段教入侵账号,违法,所以有害”,这样AI对“有害”的理解更准,不容易被新攻击骗。这篇文档讲的是一种叫“SELF-GUARD”的新方法,目的是让大语言模型(比如ChatGPT、Vicuna这类AI)能“保护自己”,不被坏人用“越狱攻击”诱导输出有害内容(比如教怎

先简单说下背景:现在这些图文AI很厉害,但也怕被滥用,所以开发者给它们加了好几层“安全盾”——比如训练时让AI拒绝有害请求(叫“对齐训练”)、给AI发安全提示(叫“系统指令”)、专门过滤输入和输出的有害内容(叫“内容审核”)。这份文档主要讲了一群研究者发现了当前主流“图文结合AI模型”(比如GPT-4o、Gemini-Pro这些能看图片又能理解文字的AI)的安全漏洞,还发明了一套叫“多面攻击(MF

摘 要:行为检测在自动驾驶、视频监控等领域的广阔应用前景使其成为了视频分析的研究热点。近年来,基于深度学习的方法在行为检测领域取得了巨大的进展,引起了国内外研究者的关注,对这些方法进行了全面的梳理和总结,介绍了行为检测任务的详细定义和面临的主要挑战; 从时序行为检测和时空行为检测 2 个方面对相关文献做了细致地分类,综合分析了每一类别中不同研究方法的思路和优缺点,并阐述了基于弱监督学习、图卷积神经
快速复现 实现 facenet-retinaface-pytorch 人脸识别 windows上 使用cpu实现

Ray是UC Berkeley RISELab新推出的高性能分布式的 Python 框架。该框架能够与 PyTorch 配对,是一款面向AI应用的分布式计算框架。以100个视频的处理为例,利用ray框架将4台机器连接起来测试。全局调度器将100个任务根据机器性能自动分发给不同的机器,A机器32个任务,B机器16个任务,C机器36个任务,D机器处理16个任务,其中每台机器并行处理。

在上一篇博客记录了SlowFast的复现过程,slowfast其中有一部分是detectron2实现Faster RCNN对人的目标检测。这一篇博客就单独记录detectron2实现Faster RCNN目标检测的解析1. 背景介绍detectron2项目地址detectron2文档2.安装步骤我使用的是云端服务器,没在自己的电脑上跑代码(云端服务器跑出问题可以直接释放掉,快速重新搭建一个,用自己
比如要给这些推理模型加强“安全训练”,设计专门针对“思考过程”的安全机制,不能只盯着最终答案的安全性;还可以借鉴普通AI的安全防护方法,适配到推理模型上。简单说,这篇文档就是告诉大家:现在那些很会“思考”的AI虽然本事大,但安全漏洞也不少,尤其是开源的,容易被坏人利用,不管是模型本身还是它们的思考过程,都得好好补补安全课。








