logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

通过安全特异性神经元理解并增强LLM安全机制

问题:目前对LLM的安全机制的理解十分有限提出了一种特异性安全神经元的检测方法揭示了安全神经元在LLM神经网络中的分布特点提出了针对安全神经元的安全对齐方法SN-Tune,极大地提升了指令微调模型的安全性提出了隔离安全神经元的微调方法RSN-Tune,在下游任务微调过程中,保持LLM安全机制的完整性LLM中神经元指的是参数矩阵中的一行或者一列。

#人工智能#语言模型
到底了