logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大模型微调训练FAQ - Batch Size与参数配置

本文探讨了大模型微调训练中Batch Size与参数配置的关键问题。首先分析了Batch Size对显存使用、训练速度和模型效果的影响机制,详细解释了有效批次大小的计算方法。其次比较了不同配置方案(如12×1与6×2)在实际训练中的差异,包括梯度计算精度、数值稳定性和优化器状态更新等方面的区别。最后提供了实用的Batch Size优化策略,包括不同显存情况下的配置建议和监控指标,特别针对LoRA微

#batch#机器学习#人工智能 +1
大模型微调训练FAQ - 训练日志解读

大模型微调训练日志解读指南 本文总结了训练日志中关键指标的含义和评估方法。主要指标包括训练loss、梯度范数、学习率、熵值、token准确率等,以及验证集的相应指标。文章详细说明了如何判断训练状态是否正常,识别梯度爆炸/消失、过拟合等异常信号,并给出调整策略建议。同时提供了多层次的监控方案,包括实时指标跟踪、定期验证评估和检查点管理策略。通过系统分析这些指标,可以有效监控训练过程并及时调整优化方向

#人工智能#算法#机器学习
大模型入门参考资料汇总

资料范围春节~清明节。

#语言模型#AIGC
网关/路由设置

在Ubuntu系统中查看网关设置

#运维#linux#经验分享
查看Linux内存使用情况

在Linux系统中,有多种方式可以查看内存的使用情况。在这里介绍一些常用的方式

文章图片
#linux#运维#服务器
Cursor 点击login in 之后无反应

Cursor 点击login in 之后无反应解决方法

文章图片
#运维#经验分享
到底了