开源大模型微调框架（LLaMA Factory）

LLaMA Factory 是由 hiyouga 团队开发的开源大模型微调框架，核心代码托管于 GitHub（项目地址：https://github.com/hiyouga/LLaMA-Factory），目前已获得超过 15k 星标，被亚马逊、英伟达、阿里云等知名企业采用，是业界主流的大模型定制工具。

极深

608人浏览 · 2025-10-04 07:45:00

极深 · 2025-10-04 07:45:00 发布

在这里插入图片描述

一、核心技术特点

1.全栈模型与训练支持
兼容 100 + 种主流语言模型，包括 LLaMA、Mistral、Qwen、DeepSeek、Gemma、ChatGLM 等系列，同时覆盖预训练、指令微调、奖励模型训练、PPO、DPO 等全链路训练方法。支持从 32 比特全参数训练到 2 比特 QLoRA 的多精度配置，适配不同硬件条件。
2.先进算法集成
内置 GaLore 梯度压缩、BAdam 内存优化、APOLLO 自适应优化器等前沿算法，同时支持 DoRA 权重分解、LongLoRA 长序列优化等专项技术，兼顾训练效率与模型性能。
3.多模态扩展能力
除文本模型外，可适配 LLaVA、Qwen2-VL、GLM-4V 等视觉 - 语言模型，支持视频输入处理，具备跨模态微调潜力。
4.低门槛工程设计
采用参数高效微调（PEFT）核心架构，通过冻结主干模型 + 注入轻量模块（LoRA、Prefix Tuning 等）降低显存占用，支持 Web UI 与命令行双操作模式，无需编程即可完成全流程微调。

二、如何使用 LLaMA Factory 进行模型微调

1.环境准备
硬件要求
基础配置：单张 NVIDIA GPU（≥16GB 显存，如 RTX 3090/4090），可支持 8B 模型 QLoRA 微调；
进阶配置：多卡 GPU（如 2×A100），支持 32B 模型全参数训练或分布式微调。
软件安装

克隆代码仓库

git clone https://github.com/hiyouga/LLaMA-Factory.git
cd LLaMA-Factory

安装依赖（建议使用conda环境）

conda create -n llama_factory python=3.10
conda activate llama_factory
pip install -r requirements.txt

2.数据准备
数据格式
支持 JSON/CSV 格式数据集，以指令微调为例，单条数据结构如下：
{
“instruction”: “请解释什么是大模型微调？”, # 任务指令
“input”: “”, # 补充输入（可选，如无则留空）
“output”: “大模型微调是指在预训练模型基础上，使用特定任务数据继续训练…” # 期望输出
}

数据存放
将数据集放入data目录，如data/my_custom_data.json，并在data/dataset_info.json中添加数据集配置（框架提供模板可直接修改）。
3.微调操作（两种模式可选）
Web UI 模式（新手推荐）

启动Web界面

python src/webui.py

访问http://localhost:7860进入界面；
步骤 1：在 “模型设置” 选择基座模型（如Qwen/Qwen-7B-Chat）、训练方法（如QLoRA）；
步骤 2：在 “数据设置” 选择自定义数据集（如my_custom_data），设置训练轮次（Epoch=3）、学习率（如 2e-4）；
步骤 3：点击 “开始训练”，实时查看损失曲线、显存占用等指标。
命令行模式（进阶用户）
以 QLoRA 微调 Qwen-7B-Chat 为例，执行命令：
python src/train.py
–model_name_or_path Qwen/Qwen-7B-Chat
–train_method qlora
–dataset my_custom_data
–output_dir ./output/qwen_7b_finetuned
–per_device_train_batch_size 4
–learning_rate 2e-4
–num_train_epochs 3
–lora_rank 8 \ # LoRA模块秩，控制参数规模
–fp16 # 启用混合精度训练（节省显存）

4.训练监控与模型导出
训练监控
实时日志：查看终端输出或output目录下的train.log；
可视化：使用 TensorBoard，执行tensorboard --logdir ./output，查看损失、学习率变化。
模型导出与使用

导出微调后的模型（含LoRA权重）

python src/export_model.py
–model_name_or_path Qwen/Qwen-7B-Chat
–lora_model_path ./output/qwen_7b_finetuned
–output_dir ./exported_model

推理测试

python src/cli.py --model_name_or_path ./exported_model

三、核心优势与不足

1.显著优势
生态兼容性强：快速适配新模型（如 Qwen3、Gemma 3 等通常发布当日即可支持），兼容 Hugging Face 生态与多种分布式训练方案（DeepSpeed、Accelerate）。
资源适配灵活：QLoRA 技术可将显存需求降至消费级 GPU 可承载范围，单张显卡即可完成 8B 模型微调，大幅降低使用门槛。
企业级实用性：提供可视化训练监控、数据集适配、模型评估等一站式工具，某金融企业借助其实现核保模型本地化微调，将核保周期从 “天级” 压缩至 “秒级”。
2.主要局限
量化部署能力薄弱：依赖 bitsandbytes 实现量化，版本兼容性问题频发，不直接支持 GGUF、ONNX 等高效推理格式，需额外工具转换，4 位量化时易出现语义偏差。
推理性能不足：专注微调环节，缺乏 AWQ、GPTQ 等高级量化技术支持，推理速度与 vLLM 等专业引擎差距明显（如 Qwen2.5-32B 模型 AWQ 量化后，vLLM 推理速度达 150 tok/s，其需额外转换且性能更低）。
文档与社区支持有限：量化导出相关教程缺失，问题调试需依赖用户自行探索，社区响应效率不及成熟推理框架。

四、典型应用场景

垂直领域模型定制
金融领域可基于 LLaMA 3 微调核保模型，实现带病投保欺诈识别；医疗场景通过 DeepSeek 模型微调构建辅助诊断问答系统，内化专业医学知识。
轻量化部署支持
中小企业借助 QLoRA 技术在消费级硬件上训练专属模型，适配智能客服、内部知识库等中小规模应用场景。
科研与快速迭代
研究者可利用其多模型支持特性，快速对比不同基座模型在特定任务（如文本分类、摘要生成）上的效果，加速算法验证进程。
多模态应用开发
通过微调 Qwen2-VL 等模型，构建图文结合的产品说明书解析、视频内容摘要等跨模态应用。

北京朝阳AI社区

更多推荐

Cherry Studio配置MCP服务全流程解析：让AI自动调用工具处理任务

北京朝阳AI社区

SpringBoot3+Vue3全栈实战：分布式医疗挂号系统开发

通过这次项目的开发，我们掌握了SpringBoot3和Vue3的全栈开发技术，并成功实现了一个高效的分布式医疗挂号系统。在未来，我们还可以继续扩展系统的功能，增加更多的智能化服务，如人工智能诊断助手、智能排班系统等，进一步提升患者的就医体验。这篇文章希望能为大家提供一些技术上的启发，帮助大家在开发类似系统时少走一些弯路。??

北京朝阳AI社区

LangGraph-状态（State）

“全局上下文状态对象”，是 StateGraph 用来在节点之间传递和合并数据的统一容器。用 TypedDict 或 dataclass 显式声明所有需要共享的字段。如果 TypedDict 没定义字段，后面更新时 IDE 可能无法提示。推荐 dict / TypedDict 以便更新状态。Agentic RAG、工作流自动化、上下文共享场景。如果你直接返回一个完整的 QAState 对象，会。进