logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

详解 JailbreakBench 中的 LLMvLLM:本地大模型加载与使用指南

LLMvLLM是 JailbreakBench 中连接本地大模型与越狱测试的关键组件,通过 vLLM 实现高效推理,同时支持灵活的参数配置。对于国内用户,通过本地模型部署和配置修改,可绕过网络限制,顺利参与 LLM 安全评估研究。结合 JailbreakBench 提供的数据集和评估工具,研究者可系统地测试模型的越狱鲁棒性,推动大语言模型安全领域的发展。

文章图片
#人工智能
论文阅读:ICLR 2026 Towards Safe Reasoning in Large Reasoning Models via Corrective Intervention

总目录 大模型安全研究论文整理 2026年版:https://blog.csdn.net/WhiffeYF/article/details/159047894https://openreview.net/forum?id=2uTxLC4LmChttps://arxiv.org/pdf/2509.24393该论文由清华大学、上海期智研究院、中科院自动化所等机构的研究者共同完成,发表于ICLR 202

文章图片
#论文阅读
Research as an infinite game - CVPR

这是NYU教授**谢赛宁(Saining Xie)**在CVPR上的演讲,主题是"Research as an Infinite Game"(研究是一场无限游戏)。演讲借用了James Carse的经典著作《Finite and Infinite Games》的框架,将学术研究重新定义为一场不以"赢"为目的、而以"持续参与"为目的的无限游戏。核心论点是:当前AI研究正面临被异化为有限游戏的风险——

文章图片
#人工智能
论文阅读:ACL 2025 PaSa: An LLM Agent for Comprehensive Academic Paper Search

该论文题为"PaSa: An LLM Agent for Comprehensive Academic Paper Search",由字节跳动Seed团队的何逸辰、黄冠华、冯沛源、林源等人与北京大学鄂维南院士合作完成,发表于ACL 2025主会长文。该论文聚焦一个科研人员的日常痛点:面对复杂、细粒度的学术检索需求,Google Scholar等传统搜索引擎往往力不从心,研究者需要花费大量时间反复搜

文章图片
#论文阅读
Openclaw 腾讯云服务器部署与实操教程

本文记录了在腾讯云上部署OpenClaw服务器的完整流程,包括购买服务器、选择大模型API和配置飞书聊天软件。通过图文详细展示了腾讯云服务器的购买步骤,对比了DeepSeek、Kimi、Qwen等大模型API的价格,最终选择性价比更高的DeepSeek。同时详细说明了在飞书开放平台创建应用、配置权限的全过程,为开发者提供了一套完整的云服务器+大模型+聊天软件的部署方案。

文章图片
#人工智能
论文阅读 EMNLP 2025 Reasoning-to-Defend: Safety-Aware Reasoning Can Defend Large Language Models from Ja

论文聚焦一个核心问题:大模型在“越狱攻击”(诱导输出不安全内容)下仍然脆弱,而现有方法过度依赖外部检测或简单拒答,效果有限。而R2D模型会这样思考:第一步识别意图(发现潜在风险),第二步评估是否违规(标记为[UNSAFE]),第三步调整策略(改为安全回应)。更重要的是,它还减少了“误拒答”(把正常问题当危险问题拒绝),实现了安全性与可用性的平衡。,核心思想是:让模型在“思考过程中就具备安全意识”。

文章图片
#论文阅读#语言模型#人工智能
论文阅读:ICLR 2026 Self-Jailbreaking: Language Models Can Reason Themselves Out of Safety Alignment Afte

通过在训练中引入少量安全推理数据(仅50条样本,占STAR-1数据集的5%),构建的SAFE-s1.1-7B模型在安全基准测试上达到95%以上的拒绝率,同时保持了推理能力不受损。该论文强调,自我越狱不同于传统的灾难性遗忘,因为模型在生成有害内容的同时仍保持着对请求危害性的认知,这揭示了一种更深层的安全对齐挑战。在这两个例子中,模型在思维链中都明确意识到请求的有害性,但随后通过自我构建的合理化推理(

文章图片
#论文阅读#语言模型#人工智能
论文阅读:ICLR 2026 RedTeamCUA: Realistic Adversarial Testing of Computer-Use Agents in Hybrid Web-OS Env

该论文针对计算机使用智能体(CUAs)的安全漏洞问题展开系统研究。CUAs能够自主操作操作系统和网页环境,完成复杂任务,但其核心依赖的大语言模型难以区分可信用户指令与恶意环境数据,导致易受间接提示注入攻击。现有评估工作存在明显局限:或缺乏真实可控的对抗测试环境,或忽视跨网页-操作系统的混合攻击场景。为此,该论文提出REDTEAMCUA框架,创新性地构建混合沙盒环境,将基于虚拟机的操作系统与基于Do

文章图片
#论文阅读
论文阅读:ICML 2025 Cannot See the Forest for the Trees: Invoking Heuristics and Biases to Elicit Irratio

尽管大语言模型(LLMs)取得了卓越的性能,但它们仍然容易受到越狱攻击,从而破坏其安全机制。现有研究通常依赖暴力优化或人工设计,未能揭示真实场景中的潜在风险。为解决这一问题,我们提出了一种新颖的越狱攻击框架——ICRT,该框架受人类认知中启发式偏差的启发。利用简单性效应,我们采用认知分解来降低恶意提示的复杂度;同时利用相关性偏差对提示进行重组,增强语义对齐,从而有效诱导有害输出。

文章图片
#论文阅读
论文阅读:ICLR 2026 Reasoned Safety Alignment: Ensuring Jailbreak Defense via Answer-Then-Check

该论文针对大型语言模型(LLM)面临的越狱攻击(jailbreak attacks)问题,提出了一种创新的安全对齐方法——“Answer-Then-Check”(先答后检)策略。传统对齐模型在面对经过伪装的恶意提示时往往容易被攻破,而该论文的核心洞察在于:恶意意图通常被深度隐藏在查询中难以识别,但当模型尝试生成回答时,这种有害意图往往会暴露出来。基于这一观察,该方法让模型首先在思维链(Chain-

文章图片
#论文阅读
    共 203 条
  • 1
  • 2
  • 3
  • 21
  • 请选择