
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
实际测试发现,仅微调注意力相关的 q_proj 和 v_proj,在对话任务中即可达到接近全模块微调的效果,还能减少 20%-30% 的训练参数。训练策略的优化是提升稳定性的关键。代码中 per_device_train_batch_size=1 过小,易导致训练震荡,通过 gradient_accumulation_steps=4 累积梯度,可模拟批量为 4 的效果,显著提升稳定性。通过这次 L
DeepSeek-R1-Distill-Qwen-1.5B 的推理与优化实践,本质是一场 “细节打磨” 与 “技术协同” 的修行,是一次从 “模型加载” 到 “高效交互” 的完整闭环体验。从pad_token的处理到 JIT 编译的配置,从缓存策略的设计到资源占用的平衡,每一个细节都影响着最终体验。未来,随着硬件算力提升与框架工具完善,大模型部署门槛将持续降低,但对 “技术细节” 与 “用户需求”
DeepSeek-R1-Distill-Qwen-1.5B 的推理与优化实践,本质是一场 “细节打磨” 与 “技术协同” 的修行,是一次从 “模型加载” 到 “高效交互” 的完整闭环体验。从pad_token的处理到 JIT 编译的配置,从缓存策略的设计到资源占用的平衡,每一个细节都影响着最终体验。未来,随着硬件算力提升与框架工具完善,大模型部署门槛将持续降低,但对 “技术细节” 与 “用户需求”
实际测试发现,仅微调注意力相关的 q_proj 和 v_proj,在对话任务中即可达到接近全模块微调的效果,还能减少 20%-30% 的训练参数。训练策略的优化是提升稳定性的关键。代码中 per_device_train_batch_size=1 过小,易导致训练震荡,通过 gradient_accumulation_steps=4 累积梯度,可模拟批量为 4 的效果,显著提升稳定性。通过这次 L







