2301_77039628 个人主页

@2301_77039628

2301_77039628

2023-04-09 11:16:57 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

《LMSanitator: Defending Prompt-Tuning Against Task-AgnosticBackdoors 》论文阅读（from NDSS）

论文阅读：《LMSanitator: Defending Prompt-Tuning Against Task-AgnosticBackdoors 》自留版

#机器学习 #论文阅读 #网络安全

《LLMmap: Fingerprinting for Large Language Models》论文阅读

LLMmap 是一个工具，它通过向一个“黑盒”大模型应用（比如一个聊天机器人）发送少量精心设计的问题，并分析其回答，就能像侦探一样准确地识别出这个应用背后究竟用的是哪个具体的大模型

#语言模型 #人工智能 #自然语言处理

《ShadowCoT: Cognitive Hijacking for Stealthy Reasoning Backdoors in LLMs》——论文阅读

本文提出ShadowCoT框架，首次实现针对大语言模型推理过程的后门攻击。该方法通过精准定位关键注意力头，采用三阶段训练（初步对齐-强化学习-监督重对齐）和推理链污染机制（RSC残差扰动+CABA偏差放大），以仅0.15%参数更新量实现高效攻击。实验显示在LLaMA-2等模型上平均攻击成功率超85%，推理劫持成功率78%，且对抗推理链的困惑度接近正常输出，检测率仅11.7%。该工作揭示了CoT范式

#论文阅读

传统联邦 VS 联邦+大模型

浅析传统联邦与联邦+大模型的区别

#语言模型 #人工智能

《Password Guessing Using Large Language Models》——论文阅读

首次系统性地将大语言模型（LLMs）应用于密码猜测任务，提出了一个名为 PAssLLM 的框架，并在多个真实密码数据集上验证了其有效性。

#语言模型 #人工智能 #自然语言处理 +1

《LLMmap: Fingerprinting for Large Language Models》论文阅读

#语言模型 #人工智能 #自然语言处理

到底了