LLaMA-Factory 可视化监控，实时观察 AMD 显卡训练状态

2600_96323217

6人浏览 · 2026-06-24 10:30:30

2600_96323217 · 2026-06-24 10:30:30 发布

告别盲猜：LLaMA-Factory 可视化监控实战

在 AMD GPU 上进行大模型微调，最让人心里没底的往往不是环境配置，而是训练开始后的“黑盒”状态。屏幕上的日志滚动得飞快，但 Loss 到底降没降？显存是不是快爆了？学习率调度是否符合预期？光靠肉眼盯着终端输出，不仅累，还容易错过关键的性能拐点。

最近我在折腾 LLaMA-Factory 适配 ROCm 环境时，深刻体会到可视化监控的重要性。好在 LLaMA-Factory 原生集成了强大的监控能力，配合 TensorBoard，我们能像看汽车仪表盘一样，实时掌握训练的每一项核心指标。今天就来聊聊如何在 AMD 显卡上把这套监控体系跑通，让训练过程从“听天由命”变成“心中有数”。

开启实时监控：Loss 与学习率的动态曲线

训练过程中，Loss 曲线是判断模型是否在正常学习的“金标准”。在 LLaMA-Factory 中，你不需要额外编写回调函数，只需在启动脚本或 Web UI 配置中启用 plot_loss 选项，系统就会自动记录每个 step 的损失值。

当我第一次在 MI300X 上跑通 Qwen-7B 的 LoRA 微调时，打开 TensorBoard 看到那条平滑下降的曲线，心里的石头才算落地。除了总 Loss，框架还能细分出 eval_loss（验证集损失）和 reward_score（如果是 RLHF 任务）。

更实用的是学习率（Learning Rate）变化图。很多时候模型不收敛，不是因为数据问题，而是学习率衰减策略设错了。通过可视化图表，你可以清晰地看到 Warmup 阶段是否过短，或者 Cosine 衰减是否在后期过早归零。在 ROCm 环境下，我曾遇到因混合精度设置导致的学习率震荡，正是通过观察这张图的异常波动，才迅速定位到需要调整 fp16 相关的缩放因子。

# 示例：启动训练并开启监控
llamafactory-cli train \
    --model_name_or_path Qwen/Qwen-7B-Chat \
    --do_train \
    --plot_loss true \
    --output_dir ./saves/qwen-7b/lora/sft \
    --overwrite_cache true

这段配置不仅会保存模型，还会在 output_dir 下生成标准的 TensorFlow Event 文件，为后续可视化打下基础。

显存使用率：AMD 显卡的“生命线”

对于 AMD 开发者来说，显存监控尤为关键。ROCm 的显存管理机制与 CUDA 略有不同，有时候 PyTorch 报告的显存占用和 rocm-smi 看到的实际占用存在细微差异。如果训练中途突然 OOM（Out Of Memory），排查起来非常耗时。

LLaMA-Factory 的监控面板能实时绘制显存使用率曲线。这不仅仅是看一个峰值，更重要的是观察显存的“阶梯状”变化。例如，在 Gradient Accumulation（梯度累积）过程中，显存应该呈现周期性的波动；如果曲线持续攀升不回退，那很可能出现了显存泄漏，或者 Batch Size 设置超出了硬件极限。

在我的实践中，通过观察实时图表，我发现当 Sequence Length 设置为 4096 时，显存占用接近 95% 的警戒线。于是果断调整为 2048 并开启 neftune_noise_alpha 进行正则化，不仅稳住了训练，还意外提升了模型的泛化能力。这种基于数据的即时决策，是单纯看日志无法做到的。

ROCm 环境下配置 TensorBoard 的避坑指南

虽然 LLaMA-Factory 对监控支持很好，但在 AMD 平台上配置 TensorBoard 仍有几个细节需要注意，否则可能出现“有数据不显示”或“端口无法访问”的情况。

首先是环境变量隔离。在 ROCm 容器中，确保 HIP_VISIBLE_DEVICES 设置正确，避免 TensorBoard 进程误占用了训练卡的计算资源。建议将 TensorBoard 服务运行在 CPU 核心或独立的逻辑核上。

其次是日志路径权限。ROCm 容器内的用户权限管理有时比较严格，确保启动训练的用户对 output_dir 有写入权限，否则 Event 文件生成失败，图表自然是一片空白。

最后，启动 TensorBoard 服务的命令在 Linux 环境下非常通用，但在多卡分布式训练时，建议只在主节点（Rank 0）启动，避免日志文件冲突：

# 在主节点启动 TensorBoard 服务
tensorboard --logdir=./saves/qwen-7b/lora/sft --host=0.0.0.0 --port=6006

配置完成后，在浏览器输入 http://<你的服务器 IP>:6006，就能看到一个充满科技感的仪表盘。看着 Loss 曲线一步步走低，显存占用稳定在安全区间，这种掌控感是技术人独有的浪漫。

让数据驱动调优

可视化的终极目的不是为了好看，而是为了指导调优。当你能够直观地看到超参数变化对训练轨迹的影响时，微调就从一门“玄学”变成了一门“实验科学”。

比如，你可以尝试不同的 Batch Size，对比显存曲线的陡峭程度；或者调整 Warmup 比例，观察 Loss 初期下降的平滑度。在 AMD 显卡上，由于算子实现的差异，某些在 NVIDIA 卡上有效的参数组合可能需要微调，而实时的图表反馈能让你以最小的试错成本找到最优解。

现在，不用再对着枯燥的日志猜谜了。利用好 LLaMA-Factory 的可视化能力，让你的每一次迭代都清晰可见。如果你也想亲手体验在 AMD 显卡上高效训练大模型的乐趣，或者需要更多算力来验证你的想法，机会来了：

200 小时 GPU 算力已就位，快来领取：https://marketing.csdn.net/questions/Q2604140858304426315?utm_source=AIpaper

ROCm 训练监控海报 (注：上方为示意海报位置，实际活动中请查看链接内详细视觉素材)

加入AMD AI开发者计划！

免费领 200 小时云算力，进群参与显卡、AI PC 幸运抽奖

更多推荐

FlagOS Day 0 跨芯适配 GLM-5.2：发布即覆盖四款芯片，支持 vLLM + SGLang双插件

同时，FlagGems 新增 6 大领域算子库——FlagDNN、FlagBlas、FlagSparse、FlagFFT、FlagTensor、FlagAudio，覆盖科学计算与信号处理场景，共计 102 个领域算子，从"大模型专用"走向全领域覆盖。厂商目录放置后由插件自动发现加载，vLLM-Plugin-FL、SGLang-Plugin-FL、Megatron-LM-FL、Transformer