
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
笔记|线性回归:最小二乘 + SGD
维度不匹配:标签 y 必须 reshape 为列向量,否则会触发广播错误;梯度不清零:忘记会导致梯度叠加,参数永远无法收敛;no_grad 缺失:参数更新时不关闭自动求导,会持续构建冗余计算图,显存爆炸;梯度不除以 batch_size:使用批次总梯度更新,步长过大,训练震荡不收敛;不打乱数据索引:样本顺序固定,模型会学习顺序特征,泛化能力变差。
到底了







