【模型微调-LLaMA-Factory-】

喵~喵喵

672人浏览 · 2025-09-25 10:20:04

喵~喵喵 · 2025-09-25 10:20:04 发布

从0开始大模型微调 LLaMA-Factory

部署服务器
初始化环境
HuggingFace下载基座模型
准备工作已完成

部署服务器

本文章采用AutoDL平台创建部署（感觉它比较方便，价格便宜），这个不是硬要求，按自己情况来（如公司自己有服务器就可以用自己的；学习的同学可以用这个演练），这里只是演示方便。AutoDL平台地址：www.autodl.com
在这里插入图片描述
镜像版本建议选择python3.10的版本，避免运行模型时出现不兼容的问题

选择完成规格后就进入如下页面，我们要用ssh来连接
在这里插入图片描述
我这里使用的vscode，安装remote-ssh

安装完成后，在服务器平台复制链接地址，使用vscode链接ssh，链接的时候会提示输入密码，也是在服务器平台复制密码粘贴即可。

显示终端看到有下图的内容就链接成功了。
在这里插入图片描述

初始化环境

下面的操作都是在终端进行的了，进入数据盘，安装LLaMA-Factory

cd /root/autodl-tmp
git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.git

创建虚拟环境，便于后期环境管理

cd /root/autodl-tmp/LLaMA-Factory/
mkdir -p /root/autodl-tmp/conda/pkgs
conda config --add pkgs_dirs /root/autodl-tmp/conda/pkgs
mkdir -p /root/autodl-tmp/conda/envs
conda config --add envs_dirs /root/autodl-tmp/conda/envs
conda create -n llama-factory python=3.10

激活虚拟环境，并安装LLaMA Factory相关依赖

conda init
source ~/.bashrc
cd /root/autodl-tmp/LLaMA-Factory/
conda activate llama-factory
pip install -e ".[torch,metrics]"

检验是否安装成功

llamafactory-cli version

启动LLama-Factory可视化微调界面

llamafactory-cli webui

在这里插入图片描述

HuggingFace下载基座模型

新建终端(注意切换到llama-factory环境 conda activate llama-factory)，创建文件夹存放所有基座模型，修改模型下载位置，

mkdir hugging-face
export HF_ENDPOINT=https://hf-mirror.com
export HF_HOME=/root/autodl-tmp/hugging-face

###可用下面的方式永久添加环境变量###
echo "HF_ENDPOINT=https://hf-mirror.com" >> ~/.bashrc
echo "HF_HOME=/root/autodl-tmp/hugging-face" >> ~/.bashrc

###检查环境变量是否生效###
echo $HF_ENDPOINT
echo $HF_HOME

在这里插入图片描述
安装HuggingFace下载工具，下载(国内huggingface地址)需要的模型。【模型大小：(1.5b：1.1G) (7b：4.7G) (8b：4.9G) (14b：9G) (32b：20G) (70b：43G) (671b：404G)】

pip install -U huggingface_hub
huggingface-cli download deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B

在这里插入图片描述
可视化界面加载模型

准备工作已完成

未完待续…

加入AMD AI开发者计划！

免费领 200 小时云算力，进群参与显卡、AI PC 幸运抽奖

更多推荐

白嫖48GB显存跑DeepSeek！AMD云GPU私有化部署实战

AMD开发者中国社区

PyTorch性能分析终极指南：从新手到专家的完整调试流程

你是否曾经遇到过这样的困境：PyTorch模型训练速度缓慢，内存占用过高，却不知道问题出在哪里？或者花费大量时间调整超参数，但效果甚微？在深度学习开发中，性能瓶颈往往是阻碍模型部署和产品化的最大障碍。本文将为你提供一套完整的PyTorch性能分析和优化指南，帮助你快速定位问题、提升模型效率，让你的深度学习项目跑得更快、更稳。## 痛点分析：为什么你的PyTorch模型跑得慢？在开始技术细节

AMD开发者中国社区

PyTorch性能优化终极指南：Profiler与TensorBoard实战应用

你是否曾经遇到过这样的困扰？🤔 模型训练速度慢如蜗牛，却不知道问题出在哪里；内存消耗飙升，却无法定位具体原因；模型精度不达标，却难以分析问题根源。在深度学习开发中，性能瓶颈就像隐形的敌人，让你花费大量时间却收效甚微。今天，让我们一起探索PyTorch性能优化的两大神器——Profiler和TensorBoard，让你的模型开发效率提升10倍以上！PyTorch作为当前最流行的深度学习框架之一