logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

昇思+昇腾开发板:模型LoRA微调-心得

实际测试发现,仅微调注意力相关的 q_proj 和 v_proj,在对话任务中即可达到接近全模块微调的效果,还能减少 20%-30% 的训练参数。训练策略的优化是提升稳定性的关键。代码中 per_device_train_batch_size=1 过小,易导致训练震荡,通过 gradient_accumulation_steps=4 累积梯度,可模拟批量为 4 的效果,显著提升稳定性。通过这次 L

#深度学习#人工智能#机器学习
昇思 昇腾开发板:模型推理和性能优化-心得

DeepSeek-R1-Distill-Qwen-1.5B 的推理与优化实践,本质是一场 “细节打磨” 与 “技术协同” 的修行,是一次从 “模型加载” 到 “高效交互” 的完整闭环体验。从pad_token的处理到 JIT 编译的配置,从缓存策略的设计到资源占用的平衡,每一个细节都影响着最终体验。未来,随着硬件算力提升与框架工具完善,大模型部署门槛将持续降低,但对 “技术细节” 与 “用户需求”

#性能优化
昇思 昇腾开发板:模型推理和性能优化-心得

DeepSeek-R1-Distill-Qwen-1.5B 的推理与优化实践,本质是一场 “细节打磨” 与 “技术协同” 的修行,是一次从 “模型加载” 到 “高效交互” 的完整闭环体验。从pad_token的处理到 JIT 编译的配置,从缓存策略的设计到资源占用的平衡,每一个细节都影响着最终体验。未来,随着硬件算力提升与框架工具完善,大模型部署门槛将持续降低,但对 “技术细节” 与 “用户需求”

#性能优化
昇思+昇腾开发板:模型LoRA微调-心得

实际测试发现,仅微调注意力相关的 q_proj 和 v_proj,在对话任务中即可达到接近全模块微调的效果,还能减少 20%-30% 的训练参数。训练策略的优化是提升稳定性的关键。代码中 per_device_train_batch_size=1 过小,易导致训练震荡,通过 gradient_accumulation_steps=4 累积梯度,可模拟批量为 4 的效果,显著提升稳定性。通过这次 L

#深度学习#人工智能#机器学习
到底了