鬼道2022 个人主页

@qq_38406029

鬼道2022

2022-11-25 15:15:51 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

ICML2025｜基于Logits的大语言模型端到端文本水印方法

（4）跨模型泛化性差，迁移到其他大模型需重新训练。为解决这些问题，该论文提出了端到端logits扰动水印模型，通过编码器与解码器的联合优化实现鲁棒性与语义保持的平衡，利用“在线提示”机制将非可微操作转化为可微代理，并通过“跨模型适配转换器”实现不同大模型间的零样本迁移。为验证模型的跨语言模型泛化能力，作者在训练阶段仅使用OPT-1.3B进行端到端优化，并在测试阶段直接将已训练模型应用于Mixtra

#语言模型 #人工智能 #自然语言处理

ICML2025｜基于Logits的大语言模型端到端文本水印方法

#语言模型 #人工智能 #自然语言处理

动态目标大模型越狱攻击

评估使用了多元化的指标与判别器来衡量攻击成功率与输出危险性，结果如下表所示， DTA在大多数模型与评估维度上都显著优于这些基线方法，不仅在平均攻击成功率上取得领先，而且在不同模型间表现更稳定，这说明通过动态采样并循环优化目标，DTA能更有效地贴合目标模型的高风险生成区域，从而提升越狱的可靠性与一致性。与以往强制模型生成固定回应的越狱方式不同，DTA创新性地让模型自发生成候选响应，并动态选择其中最具

#人工智能 #算法 #网络

动态目标大模型越狱攻击

#人工智能 #算法 #网络

ICLR 2026 | 大模型无目标越狱攻击

结果表明，即使在较强的SmoothLLM防御下，UJA依然能够保持60%的攻击成功率，这远高于其他基线方法，如COLD-Attack和GCG，这些方法的成功率在同样的防御环境下显著下降。UJA的思路更聪明：不逼演员背台词，而是改成两步走——先问“裁判最怕听到哪类话”（找到危险的“说话风格”），再把这种“怕”的信号翻译成演员能听懂的方式并教给演员（优化提示），从而在更大的语言空间里更快、更隐蔽地诱导

#人工智能

ICLR 2026 | 大模型无目标越狱攻击

#人工智能

Sigmoid类神经网络的鲁棒性验证

该论文是关于神经网络鲁棒性理论类的文章。类似有Sigmoid激活函数的神经网络，由于其非线性，使得在进行神经网络鲁棒验证评估时，不可避免地会引入了不精确性。当前的一个研究方向是寻找更严格的近似值以获得更精确的鲁棒验证结果。然而，现有的紧密度定义是启发式的，缺乏理论基础。在该论文中，作者对现有的神经元紧密度表征进行了全面的实证分析，并揭示它们仅在特定的神经网络上具有优势。另外，作者基于神经网络紧密

#深度学习

深度学习的几何观点

深度学习的基本问题深度学习方法在很多工程和医疗领取都取得巨大成功，但是深度学习的理论基础依然薄弱，对于深度学习机制的内在理解仍然处于探索阶段，其基本问题可以接纳为如下三个：深度学习（机器学习）究竟在学习什么？深度学习系统如何进行学习？它们究竟是记住了学习样本，还是真正学会了内在知识？深度学习系统的学习效果如何？是学会了人类教给它们的所有知识，还是要迫不得已遗忘一些知识？最优传输理论有助于理解和解

在客户端智能体与服务端智能体的交互过程中，A2A协议定义了若干关键实体，用于描述任务的能力、数据、消息与结果。—— 一个开放、标准化的通信协议，致力于让各类AI代理能够跨框架、跨平台、跨供应商地安全发现、协作、交换信息与分工执行任务，从而推动多代理系统在企业级应用中的规模化与互操作性。在A2A体系中，一个智能体既可以充当客户端发起任务，也可以作为服务端执行任务，具备灵活的双重身份，这为复杂系统中的

#人工智能 #深度学习 #机器学习

共 35 条

请选择