白鹭千叶个人主页

@weixin_45366659

白鹭千叶

2025-08-06 14:47:18 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

昇思+昇腾开发板：模型LoRA微调-心得

实际测试发现，仅微调注意力相关的 q_proj 和 v_proj，在对话任务中即可达到接近全模块微调的效果，还能减少 20%-30% 的训练参数。训练策略的优化是提升稳定性的关键。代码中 per_device_train_batch_size=1 过小，易导致训练震荡，通过 gradient_accumulation_steps=4 累积梯度，可模拟批量为 4 的效果，显著提升稳定性。通过这次 L

#深度学习 #人工智能 #机器学习

昇思昇腾开发板：模型推理和性能优化-心得

DeepSeek-R1-Distill-Qwen-1.5B 的推理与优化实践，本质是一场 “细节打磨” 与 “技术协同” 的修行，是一次从 “模型加载” 到 “高效交互” 的完整闭环体验。从pad_token的处理到 JIT 编译的配置，从缓存策略的设计到资源占用的平衡，每一个细节都影响着最终体验。未来，随着硬件算力提升与框架工具完善，大模型部署门槛将持续降低，但对 “技术细节” 与 “用户需求”

到底了