logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大模型高效微调RoLA

其中,K(SGD)LoRA 和 K(SGD)分别是 LoRA和全微调诱导的核,N是数据集中的样本数量,c 是梯度和输入的 L2 范数的上界,ϵ 是近似误差, δ 是由 4N2 exp(−(ϵ2 − ϵ3)r/4)给出的概率界限,其中 r 是 LoRA中使用的秩。简单来说就是减少参数量和计算量:由这个公式∆W (d*d的矩阵)= B(d*r的矩阵)A(r*d的矩阵)(r<<d)原来需要计算d*d个参

#LoRA
到底了