LM Studio 结合 LLaMA Factory，微调模型本地部署指南

2600_96323174

300人浏览 · 2026-06-16 09:13:50

2600_96323174 · 2026-06-16 09:13:50 发布

为什么选择 Ryzen AI + LLaMA Factory？

以前想微调一个大模型，大家的第一反应往往是去租云端的 A100 或 H100 显卡，不仅成本高，还得担心数据隐私。但如果你手头有一台搭载 AMD Ryzen AI（比如 Strix Halo 架构）的笔记本，配合 Radeon GPU，其实完全可以在本地完成从微调到推理的闭环。

这套组合的核心逻辑很清晰：LLaMA Factory 负责高效、低显存占用的 LoRA 微调，而 LM Studio 则作为最友好的本地推理前端，让我们能即时看到微调后的效果。对于想要打造专属写作助手、特定领域客服或者个性化角色扮演模型的创作者来说，这是一条极具性价比且完全可控的路径。不需要复杂的集群配置，也不用折腾晦涩的底层代码，只要思路对，普通消费级硬件也能跑出专业效果。

第一步：环境与数据集的“轻”准备

在开始训练前，我们需要确保软件环境就绪。LLaMA Factory 对 AMD 显卡的支持主要依赖于 ROCm 生态。如果你是在 Windows 上使用 WSL2，或者直接使用 Linux 发行版，请确保已安装对应版本的 ROCm 驱动。对于 Ryzen AI 用户，验证 PyTorch 是否能识别到 NPU 或 GPU 是关键一步，通常在终端输入 python -c "import torch; print(torch.cuda.is_available())"（针对 GPU）或检查 NPU 相关库来确认。

接下来是数据集。微调的本质是“教”模型学会新的说话方式或知识，因此数据质量比数量更重要。对于个人玩家，准备一个包含 500 到 2000 条高质量对话的 JSONL 文件就足够了。数据格式需要严格遵循 LLaMA Factory 的要求，通常是 conversations 列表形式：

[
  {
    "conversations": [
      {"role": "system", "content": "你是一个精通宋代历史的专家，说话风格要半文半白。"},
      {"role": "user", "content": "苏轼最著名的词是什么？"},
      {"role": "assistant", "content": "若论东坡居士之绝唱，非《念奴娇·赤壁怀古》莫属。大江东去，浪淘尽，千古风流人物……"}
    ]
  },
  {
    "conversations": [
      {"role": "user", "content": "推荐一道杭州菜。"},
      {"role": "assistant", "content": "客官不妨尝尝东坡肉，此菜色泽红亮，味醇汁浓，正是苏公当年所创。"}
    ]
  }
]

将上述内容保存为 dataset.json，并在 LLaMA Factory 的 data/dataset_info.json 文件中注册它，告诉程序你的数据文件路径和列名映射。这一步看似繁琐，却是后续训练不报错的基础。
在这里插入图片描述

第二步：配置 LoRA 微调参数

这是整个流程的核心。打开 LLaMA Factory 的 Web UI 界面（通过 llamafactory-cli webui 启动），我们可以可视化地配置所有参数。针对 Ryzen AI 或 Radeon 显卡显存有限的特点，我们必须采用 LoRA (Low-Rank Adaptation) 策略，只训练极少量的参数，从而大幅降低显存需求。

在配置面板中，有几个关键设置需要特别注意：

模型选择：加载你选定的基座模型（如 Qwen2.5-7B 或 Llama-3-8B 的 GGUF 或原始权重）。注意，如果显存紧张，可以先加载量化过的基座模型。
微调方法：务必选择 lora。
LoRA 秩 (Rank)：一般设置为 8 或 16。对于风格模仿类任务，8 往往就够了；如果是注入新知识，可以尝试 16 或 32。
目标模块 (Target Modules)：这是 LoRA 作用的具体层。LLaMA Factory 通常会自动检测，但手动指定 q_proj,v_proj 等注意力层效果更佳。
批处理大小 (Batch Size)：这是显存杀手。建议从 1 或 2 开始尝试，配合 梯度累积 (Gradient Accumulation) 步骤数（如设为 4 或 8），在不增加显存占用的前提下模拟更大的批次。
学习率 (Learning Rate)：设置在 1e-4 到 5e-5 之间比较稳妥。过高的学习率会导致模型“遗忘”原有能力，出现胡言乱语。
最大长度 (Cutoff Length)：根据你的数据集平均长度设定，比如 1024 或 2048。设得太长会浪费显存，太短则会截断上下文。

点击“开始训练”后，密切观察控制台输出的 Loss 曲线。理想的状况是 Loss 平稳下降，而不是剧烈震荡。如果在训练初期 Loss 就变成 NaN，通常是学习率过高或数据格式有误。

第三步：从适配器到可用模型

训练完成后，你会得到一组 LoRA 适配器文件（通常是 adapter_model.safetensors 和 adapter_config.json）。这时候你有两条路可选：合并模型或直接加载。

对于想在 LM Studio 中快速验证效果的朋友，直接加载是最方便的，但 LM Studio 对动态加载外部 LoRA 适配器的支持取决于具体版本和模型后端。更稳妥且兼容性最好的方式是合并模型。

LLaMA Factory 提供了便捷的导出功能。在 Web UI 的“导出”选项卡中，选择刚才训练好的适配器，指定输出路径，并选择导出格式。为了在 LM Studio 中获得最佳性能，建议导出为 GGUF 格式。这一步实际上是将基座模型的权重与 LoRA 的微调权重数学合并，生成一个新的、独立的模型文件。

# 命令行导出示例（如果不使用 Web UI）
llamafactory-cli export \
    --model_name_or_path path/to/base_model \
    --adapter_name_or_path path/to/adapter \
    --export_dir path/to/merged_model \
    --export_size 2 \
    --export_legacy_format False

导出完成后，你可能还需要使用 llama.cpp 提供的 quantize 工具，将这个合并后的 FP16 模型量化为 Q4_K_M 或 Q5_K_M 格式。量化不仅能将模型体积缩小到原来的 1/3 甚至更小，还能显著提升在 Ryzen AI NPU 或 Radeon GPU 上的推理速度，而精度损失几乎可以忽略不计。

第四步：在 LM Studio 中即时验证

一切准备就绪，现在打开 LM Studio。

点击左侧的“我的模型”（My Models），选择“从文件夹加载模型”，指向你刚刚生成的 GGUF 文件所在目录。
在右侧的设置栏中，找到 GPU Offload 选项。由于我们是在 AMD 平台上，确保 LM Studio 已正确识别到你的 Radeon 显卡或 Ryzen AI NPU。将滑块拉满，尽可能多的层数卸载到 GPU 上，这样推理速度最快。
加载模型后，进入聊天界面。此时，你可以尝试用训练时的风格提问。比如刚才的宋代历史专家，你可以问：“如何看待现代的奶茶？”如果模型能回答出“此物虽甜腻，却似宋时点茶之变体……"之类的风格化内容，说明微调非常成功。

在这个过程中，你可能会遇到显存不足导致无法全量卸载的问题。这时可以适当减少上下文窗口（Context Window）的大小，或者在 LM Studio 的设置中调整线程数，寻找速度与稳定性的平衡点。