小楼听风雨876 个人主页

@weixin_64659655

小楼听风雨876

2023-11-19 17:46:29 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

深入理解余弦退火：让模型训练更高效的学习率调度策略

摘要：余弦退火学习率调度策略通过模拟余弦曲线实现学习率平滑衰减，解决了固定学习率训练中的收敛问题。该策略结合Warmup（预热）机制，先线性升温再余弦降温，能有效提升模型训练稳定性。相比传统阶梯式下降，余弦退火具有过渡平滑、能逃离局部最优等优势，特别适用于大型模型微调和长周期训练任务。PyTorch提供了现成实现，配合5%-10%的Warmup步数和合理的最小学习率设置，可显著提升各类深度学习任务

#学习

LoRA轻量级参数微调方法详解

LoRA是一种高效的模型微调方法，通过冻结预训练模型参数，仅训练低秩分解矩阵（A和B）来适配新任务。该方法可将训练参数量减少99%，显著降低显存需求，同时保持接近全量微调的性能。实现时需：1）冻结原始参数，仅解冻LoRA模块；2）配置优化器仅更新可训练参数；3）单独保存/加载LoRA权重。特别适合数据量有限的医疗等场景，既能复用预训练知识，又能快速适应特定任务，实现高效部署。典型应用中，1.2B参

#人工智能 #深度学习 #机器学习

AI大模型模态特征详解

模态特征（modalfeature）是用于区分不同数据类型的特征向量，能够突出图像、文本等模态的独特性。在多模态模型中，它既帮助实现跨模态语义对齐，又能保留模态差异。通过modal_dense层将原始特征转换为模态特征后，模型可利用判别损失迫使这些特征具备区分能力，使其既能理解语义又能识别数据类型。模态特征是实现多模态融合与区分的关键技术。

#人工智能 #计算机视觉 #深度学习

到底了