HK2KING 个人主页

@HK2KING

HK2KING

2026-05-18 15:32:22 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

[论文学习]ToolEmu:用语言模型模拟沙盒识别语言模型智能体的风险

随着 ChatGPT Plugins、AutoGPT 等应用的出现，LM 智能体获得了调用外部工具的能力——从操作文件系统、访问数据库，到执行银行交易、控制交通信号灯。然而，这种能力也带来了前所未有的风险：智能体可能在用户指令模糊的情况下做出危险决策，导致数据泄露、财务损失甚至人身伤害。传统的风险评估方法需要人工为每个工具搭建隔离的测试环境（沙盒）、手动设计测试用例、逐条检查智能体的执行轨迹。随着

#学习 #语言模型 #人工智能

[论文学习]ToolEmu:用语言模型模拟沙盒识别语言模型智能体的风险

#学习 #语言模型 #人工智能

[论文学习]大语言模型智能体的安全与隐私问题涌现

LLM智能体正被广泛应用于虚拟助手、客服机器人、教育工具等各类场景，处理海量数据并与人类进行交互。然而，随着其商业价值和应用范围的不断扩大，LLM智能体也暴露出严重的安全与隐私脆弱性。与静态的LLM不同，LLM智能体具备动态能力——其即时响应会影响未来的决策和行动，因此会带来更广泛的风险。当前学术界对LLM智能体的研究仍处于早期阶段，现有研究主要聚焦于针对LLM本身的攻击，而缺乏对智能体层面更复杂

#学习 #语言模型 #安全

[论文学习]基于大语言模型的恶意对话式AI诱使用户泄露个人信息的深度分析

LLM-based CAI（即生成式AI聊天机器人，如ChatGPT）已广泛应用于客户服务、个人助理等各类场景。然而，用户在与这些系统对话时往往会透露大量个人信息。更令人担忧的是，LLM的训练机制（如RLHF）会将用户对话数据纳入训练过程，增加了敏感信息被模型记忆的风险。是否存在一种恶意CAI，其核心设计目的就是主动诱导用户泄露个人信息？这项研究正是要回答这个问题。

#人工智能 #学习 #语言模型

[论文学习]基于大语言模型的恶意对话式AI诱使用户泄露个人信息的深度分析

#人工智能 #学习 #语言模型

[论文学习]基于大语言模型的恶意对话式AI诱使用户泄露个人信息的深度分析

#人工智能 #学习 #语言模型

[论文学习]基于大语言模型的恶意对话式AI诱使用户泄露个人信息的深度分析

#人工智能 #学习 #语言模型

[论文学习]Unsafer in Many Turns：工具使用型Agent的多轮安全风险基准测试与防御

随着LLM-based Agent从“聊天机器人”进化为能够调用文件系统、数据库、浏览器等真实工具的自主执行体，安全问题的性质发生了根本变化。传统安全评测聚焦于单轮有害请求的文本拒绝——模型拒绝就算安全，回答就算不安全。但Agent的行为远不止于此：它会持续交互、读取上下文、调用工具、修改外部状态。现有安全基准要么评测多轮对话安全但不涉及真实工具，要么评测工具调用安全但仅限于单轮任务。“多轮”与“

#学习 #安全 #人工智能

[论文学习]基于LLM的AI智能体安全威胁与防御系统性综述的分层攻击面框架

攻击发生在架构的哪个组件？威胁在什么时间尺度上显现？防御措施应该部署在哪一层？智能体系统具备跨会话规划、持久记忆、外部工具调用和智能体间协作等能力，这些能力带来的安全代价是——每一个让智能体比聊天机器人更强大的架构决策，都在扩大攻击面。论文明确指出，从无状态LLM到自主智能体的过渡引入了一组更为严峻的安全挑战，因为基础LLM的安全对齐（拒绝训练）并不能可靠地迁移到智能体上下文。

#学习 #人工智能 #安全

[论文学习]基于LLM的AI智能体安全威胁与防御系统性综述的分层攻击面框架

#学习 #人工智能 #安全

共 79 条

请选择