logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

model.eval()推理模式详解

model.eval()是PyTorch中用于切换模型到评估模式的关键方法,主要作用于推理阶段。该方法会关闭Dropout层的随机丢弃功能,并固定BatchNorm层使用训练阶段累积的统计量,确保输出结果稳定可靠。评估时必须调用该方法,否则会导致推理结果不稳定(Dropout持续生效)或统计偏差(BatchNorm使用当前批次数据)。通常与torch.no_grad()配合使用,前者控制模型层行为

#深度学习#机器学习#人工智能
LoRA轻量级参数微调方法详解

LoRA是一种高效的模型微调方法,通过冻结预训练模型参数,仅训练低秩分解矩阵(A和B)来适配新任务。该方法可将训练参数量减少99%,显著降低显存需求,同时保持接近全量微调的性能。实现时需:1)冻结原始参数,仅解冻LoRA模块;2)配置优化器仅更新可训练参数;3)单独保存/加载LoRA权重。特别适合数据量有限的医疗等场景,既能复用预训练知识,又能快速适应特定任务,实现高效部署。典型应用中,1.2B参

#人工智能#深度学习#机器学习
深入理解余弦退火:让模型训练更高效的学习率调度策略

摘要:余弦退火学习率调度策略通过模拟余弦曲线实现学习率平滑衰减,解决了固定学习率训练中的收敛问题。该策略结合Warmup(预热)机制,先线性升温再余弦降温,能有效提升模型训练稳定性。相比传统阶梯式下降,余弦退火具有过渡平滑、能逃离局部最优等优势,特别适用于大型模型微调和长周期训练任务。PyTorch提供了现成实现,配合5%-10%的Warmup步数和合理的最小学习率设置,可显著提升各类深度学习任务

#学习
AI大模型模态特征详解

模态特征(modalfeature)是用于区分不同数据类型的特征向量,能够突出图像、文本等模态的独特性。在多模态模型中,它既帮助实现跨模态语义对齐,又能保留模态差异。通过modal_dense层将原始特征转换为模态特征后,模型可利用判别损失迫使这些特征具备区分能力,使其既能理解语义又能识别数据类型。模态特征是实现多模态融合与区分的关键技术。

#人工智能#计算机视觉#深度学习
深度学习实验日志:从配置到落地,用 SwanLab 追踪医学图像分类实验

摘要:本文介绍了使用SwanLab搭建医学图像分类实验日志系统的方法。针对深度学习研究中常见的实验记录混乱问题,SwanLab提供轻量级解决方案,可自动记录超参数、训练指标和可视化结果。文章详细讲解了日志目录准备、实验元数据配置、日志器初始化等步骤,并强调医学图像分类任务中记录数据不平衡、关键时间点和错误案例的重要性。该系统支持长期存储和结果复现,是医学AI研究的实用工具。

#深度学习#人工智能
到底了