
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
通过安全特异性神经元理解并增强LLM安全机制
问题:目前对LLM的安全机制的理解十分有限提出了一种特异性安全神经元的检测方法揭示了安全神经元在LLM神经网络中的分布特点提出了针对安全神经元的安全对齐方法SN-Tune,极大地提升了指令微调模型的安全性提出了隔离安全神经元的微调方法RSN-Tune,在下游任务微调过程中,保持LLM安全机制的完整性LLM中神经元指的是参数矩阵中的一行或者一列。
到底了







