从零开始手写微调代码：如何用本地deepseek模型在自己构建的数据集进行微调，大模型入门到精通，收藏这篇就足够了！

AI-智能

953人浏览 · 2025-10-14 11:52:41

AI-智能 · 2025-10-14 11:52:41 发布

最近翻阅了各种视频资料，文档，关于如何使用自己构建的数据集进行微调的教程质量参差不齐，有的相当简略，有的需要colab或者租用云服务器或者使用一些集成的框架，对于我这种知识面不够的小白相当不友好，最后终于找到一个相对没那么复杂，比较灵活的方式对本地的deepseek模型进行微调的教程。

首先通过conda创建虚拟环境，并且在pycharm能够激活与使用，并且安装相应的依赖，最后一个是llama的版本，就涉及到部署模型了，这里先不展开讲（注意：我在这里安装的torch版本是gpu版本）：

然后，将deepseek模型的所有文件放到当前目录下，我这里是从hugface下载的：

之后开始加载模型和分词器，因为我显存不够用，只能选择cpu了，或者可以选择狂降低：

# 加载模型和分词器
model_name = "deepseekr1-1.5b"
tokenizer = AutoTokenizer.from_pretrained(model_name)
# 检查 CUDA 是否可用
device = "cuda" if torch.cuda.is_available() else "cpu"
model = AutoModelForCausalLM.from_pretrained(model_name)
# 如果使用 CUDA，转换模型为 float16 精度
if device == "cuda":
model = model.half()
# 释放未使用的缓存
torch.cuda.empty_cache()
print(f"————模型加载成功-------")

接下来到处理数据集的部分，在这里选择用ai生成了数据样本，包括prompt和completion，在这里我只截取了部分内容，因为我对数据集的构建方式还了解不够深入，只能参考较为简单的构建方式了，将这个数据集写在一个.py文件下，这样才能进行数据集的构建，通过脚本的方式：

构建数据集的代码如下，在这里通过dataset的split方法将数据集进行了分割，同时将数据集处理成jsonl格式：

with open("datasets.jsonl","w",encoding="utf-8") as f:
for s in samples:
json_line = json.dumps(s, ensure_ascii=False)
f.write(json_line + "\n")
else:
print("prepare data is finished!")
dataset = load_dataset("json", data_files={"train": "datasets.jsonl"},split="train")
print("数据量：",len(dataset))
train_test_split = dataset.train_test_split(test_size=0.1)
train_dataset = train_test_split["train"]
eval_dataset = train_test_split["test"]
print(f"train_dataset: {len(train_dataset)}")
print(f"eval_dataset: {len(eval_dataset)}")
print("完成数据准备！")

处理好的数据集是这样的形式：

接着将数据集token化，对数据进行微调前的最后准备，关于token的超参可以根据自己的配置来进行设置，我的电脑实在是不行，所以只能设置得一点：

def tokenize_function(examples):
texts = [f"{prompt}\n{completion}"for prompt, completion in zip(examples["prompt"], examples["completion"])]
tokens = tokenizer(texts, padding="max_length", truncation=True, max_length=128)
tokens["labels"] = tokens["input_ids"].copy()
return tokens
tokenized_train_dataset = train_dataset.map(tokenize_function,batched=True)
tokenized_eval_dataset = eval_dataset.map(tokenize_function,batched=True)
# print("完成tokening",tokenized_train_dataset[0])

接着再进行量化和lora微调的设置，以及训练超参数的设置，由于我想要快速看到结果，所以并没有选择太多轮的训练，同时照顾硬件配置，也将梯度设置和batch设置得很小：

# 量化设置
quantization_config = BitsAndBytesConfig(
load_in_8bit=True,
)
model = AutoModelForCausalLM.from_pretrained(
model_name,
quantization_config=quantization_config,
device_map="auto",
)
print("完成量化")
lora_config = LoraConfig(
r=8,lora_alpha=16,lora_dropout=0.05,task_type=TaskType.CAUSAL_LM
)
model = get_peft_model(model,lora_config)
model.print_trainable_parameters()
print("完成lora")
traning_args = TrainingArguments(
output_dir="./fine_tune_models",
num_train_epochs=5,  # 尝试减少训练轮数
per_device_train_batch_size=1,
gradient_accumulation_steps=2,
learning_rate=2e-4,
logging_steps=10,
eval_strategy="steps",
eval_steps=5,
fp16=True,
save_steps=100,
logging_dir="./logs",
run_name="deepseekr1-1.5b-lora"
)
print("训练参数设置完成")
trainer = Trainer(
model=model,
args=traning_args,
train_dataset=tokenized_train_dataset,
eval_dataset=tokenized_eval_dataset,
)
print("开始训练")
trainer.train()
print("训练完成")
model.save_pretrained("./fine_tune_models")

最后进行模型的合并与保存：

print("开始训练")
trainer.train()
print("训练完成")
model.save_pretrained("./fine_tune_models")
save_path = "./saved_models"
model.save_pretrained(save_path)
tokenizer.save_pretrained(save_path)
print("模型保存成功")
final_save_path = "./final_save_path"
base_model = AutoModelForCausalLM.from_pretrained(model_name)
model = PeftModel.from_pretrained(base_model, save_path)
model = model.merge_and_unload()
model.save_pretrained(final_save_path)
tokenizer.save_pretrained(final_save_path)
print("模型合并保存成功")

最后写一段简单的代码进行推理测试：

from transformers import AutoModelForCausalLM,AutoTokenizer
final_save_path="./final_save_path"
model = AutoModelForCausalLM.from_pretrained(final_save_path)
tokenizer = AutoTokenizer.from_pretrained(final_save_path)
from transformers import pipeline
# 转换模型为 float16 精度
model = model.half().half()
pipe = pipeline("text-generation",model=model,tokenizer=tokenizer)
prompt = "9.9和9.11谁更大"
generated_texts = pipe(prompt,max_length=512,num_return_sequences=1, truncation=True)
print("开始回答",generated_texts[0]["generated_text"])

运行之后，就可以得到模型推理的结果，