LoRA微调详解：Llama Factory如何用10%内存实现90%效果，附配置参数

本文介绍了如何在星图GPU平台上自动化部署Llama Factory镜像，以极低的资源消耗实现大语言模型的高效微调。通过LoRA技术，用户仅需少量GPU内存即可定制模型，典型应用如快速训练一个能理解特定领域知识并生成专业回复的智能客服助手。

在新宿痛饮

144人浏览 · 2026-03-10 00:48:39

在新宿痛饮 · 2026-03-10 00:48:39 发布

LoRA微调详解：Llama Factory如何用10%内存实现90%效果，附配置参数

1. 为什么你需要了解LoRA微调？

想象一下，你手里有一台性能强大的跑车，但你想让它更适合在城市里日常通勤。传统的方法是把整个发动机拆了重新改装，费时费力还容易出问题。而LoRA微调就像给这辆跑车加装一个智能驾驶辅助系统，让它变得更懂你的驾驶习惯，但不用动发动机的核心结构。

这就是LoRA微调的魅力所在。在AI模型训练领域，全参数微调就像是重新造一辆车，需要巨大的计算资源和时间。而LoRA微调只需要很少的资源，就能让大模型学会新的技能。

让我给你看一个真实的对比：

# 传统全参数微调 - 训练7B模型
GPU内存需求：约84GB
训练时间：几天到几周
硬件要求：多张A100/H100显卡
成本：非常高

# LoRA微调 - 训练同一个7B模型  
GPU内存需求：约7-8GB
训练时间：几小时到一天
硬件要求：单张RTX 3090/4090
成本：非常低

看到这个差距了吗？LoRA微调只需要传统方法10%左右的内存，就能达到90%以上的效果。这意味着什么？意味着个人开发者、小团队、甚至学生，都能在自己的电脑上训练大模型了。

2. LoRA到底是什么？一个简单的比喻

2.1 传统微调 vs LoRA微调

让我们用一个更形象的比喻来理解：

传统全参数微调就像你要教一个会说英语的人学中文。你需要：

让他忘记所有英语语法
从头学习中文的语法规则
这个过程需要很长时间和大量练习
学完后，他可能英语也说不利索了

LoRA微调则聪明得多：

保留他所有的英语能力
只教他"当听到中文时，应该这样回应"的对应关系
他既会说英语，又能用中文交流
学习过程快得多，资源消耗也少

2.2 LoRA的技术原理（用大白话解释）

LoRA的全称是Low-Rank Adaptation，翻译过来就是"低秩适配"。别被这个术语吓到，我来用简单的话解释：

大语言模型里有数以亿计的"连接"（专业叫参数），这些连接决定了模型怎么思考、怎么回答。传统微调要调整所有这些连接，而LoRA只做一件事：在原有的连接旁边，加上一些新的、小小的"辅助连接"。

这些辅助连接有几个特点：

数量很少：只占原模型参数的0.1%-1%
只加不改：不改变原有的连接，只是增加新的
可以开关：需要的时候打开，不需要的时候关闭

举个例子，一个7B参数的模型：

总共有70亿个连接
LoRA只增加约700万-7000万个新连接
这些新连接专门学习你的特定任务

这就是为什么LoRA这么省资源——你不需要重新训练整个大脑，只需要给它戴上一个"智能眼镜"，让它用新的视角看问题。

3. Llama Factory中的LoRA实战：从零开始

3.1 环境准备：5分钟搞定

首先，确保你的环境准备好了。如果你用的是CSDN星图镜像，那已经内置了Llama Factory，可以直接使用。如果是自己搭建，也很简单：

# 创建虚拟环境
conda create -n llamafactory python=3.10 -y
conda activate llamafactory

# 安装Llama Factory
pip install llama-factory

验证安装是否成功：

llamafactory-cli version
# 应该能看到版本号，比如 0.6.0

3.2 准备你的训练数据

数据是训练的灵魂。LoRA虽然省资源，但对数据质量的要求是一样的。你的数据应该长这样：

[
  {
    "instruction": "将以下商品描述改写成营销文案",
    "input": "这是一款智能手表，可以监测心率、血氧、睡眠质量，续航7天",
    "output": "【健康守护，时刻在线】全新智能手表，24小时心率血氧监测，精准分析睡眠质量，7天长续航，让你随时掌握健康数据，生活更安心！"
  },
  {
    "instruction": "分析用户评论的情感倾向",
    "input": "这个产品用起来很方便，但电池续航有点短",
    "output": "正面评价：产品易用性；负面评价：电池续航"
  }
]

数据准备的关键点：

数量要够：至少100-200条，越多效果越好
质量要高：指令清晰，输出准确
多样性：覆盖你希望模型学会的各种场景
格式统一：严格按照instruction、input、output三个字段

3.3 核心配置参数详解

这是LoRA微调最关键的部分。Llama Factory把复杂的配置简化了，但你还是要了解每个参数的作用：

from llama_factory import TrainArguments

# 基础配置
train_args = TrainArguments(
    # 1. 模型选择 - 选对基础模型很重要
    model_name_or_path="Qwen/Qwen2-7B-Instruct",  # 基础模型
    
    # 2. 数据配置
    dataset="your_dataset_name",                   # 你的数据集
    dataset_dir="./data",                          # 数据存放路径
    
    # 3. LoRA专用配置 - 这是核心！
    finetuning_type="lora",                       # 使用LoRA方法
    
    # LoRA目标模块：决定改哪里
    lora_target="q_proj,v_proj",                  # 只改查询和值投影层
    # 可选值：all（所有线性层）、默认的q_proj,v_proj等
    
    # LoRA秩：决定改多少
    lora_rank=16,                                 # 秩的大小，16-64之间
    # 越大效果越好但需要更多内存，16是常用值
    
    # LoRA Alpha：学习强度
    lora_alpha=32,                                # 通常设为rank的2倍
    # 控制新知识的学习强度
    
    # 4. 训练参数
    output_dir="./output",                        # 保存位置
    per_device_train_batch_size=2,                # 批次大小
    gradient_accumulation_steps=4,                # 梯度累积步数
    learning_rate=2e-4,                           # 学习率
    num_train_epochs=3,                           # 训练轮数
    
    # 5. 资源优化
    fp16=True,                                    # 使用半精度，省内存
    logging_steps=10,                             # 每10步输出日志
    save_steps=100,                               # 每100步保存一次
)

参数选择指南：

参数	推荐值	作用	调整建议
`lora_rank`	16-64	控制LoRA的"学习能力"	任务简单用16，复杂用32-64
`lora_alpha`	rank×2	控制学习强度	通常设为rank的2倍
`learning_rate`	1e-4到5e-4	学习速度	LoRA需要比全参数微调更大的学习率
`num_train_epochs`	3-10	训练轮数	数据少可以多训几轮，数据多可以少训
`per_device_train_batch_size`	1-4	每次处理的样本数	根据GPU内存调整

3.4 一键开始训练

配置好参数后，训练就变得非常简单：

from llama_factory import run_train

# 开始训练
run_train(train_args)

# 训练过程中，你会看到类似这样的输出：
# [INFO] 开始训练...
# [INFO] 第1步，损失: 2.3456
# [INFO] 第10步，损失: 1.2345
# [INFO] 第20步，损失: 0.8765
# [INFO] 检查点已保存到 ./output/checkpoint-100
# [INFO] 训练完成！总耗时: 2小时15分钟

训练过程中，你可以关注几个关键指标：

损失值（loss）：应该逐渐下降，最终稳定在较低值
学习率：按计划衰减
内存使用：保持在合理范围内

3.5 测试和使用训练好的模型

训练完成后，怎么用这个模型呢？

from llama_factory import load_model, get_infer_args

# 加载基础模型和LoRA适配器
infer_args = get_infer_args({
    "model_name_or_path": "Qwen/Qwen2-7B-Instruct",
    "adapter_name_or_path": "./output",  # 你的训练结果
    "template": "qwen"                    # 使用Qwen的对话模板
})

# 加载模型
model, tokenizer = load_model(infer_args)

# 测试你的定制化模型
def chat_with_model(question):
    messages = [
        {"role": "system", "content": "你是一个专业的营销文案助手"},
        {"role": "user", "content": question}
    ]
    
    response = model.chat(tokenizer, messages)
    return response

# 测试
test_question = "把这句话改写成吸引人的广告语：这款咖啡机可以制作多种咖啡，操作简单"
answer = chat_with_model(test_question)
print(f"模型回答：{answer}")
# 可能输出：一键解锁咖啡大师！智能咖啡机，30+种饮品随心选，小白也能轻松操作...

4. 实战案例：用LoRA训练一个客服助手

让我们通过一个完整的案例，看看LoRA微调在实际中怎么用。

4.1 场景描述

假设你开了一家电商公司，每天有大量客户咨询。你想训练一个AI客服助手，能够：

回答常见问题（发货时间、退换货政策等）
理解客户情绪并安抚
提供个性化的购物建议

4.2 数据准备

你需要准备这样的训练数据：

[
  {
    "instruction": "作为客服，回答关于发货时间的问题",
    "input": "我昨天下的订单，什么时候能发货？",
    "output": "您好！订单一般在下单后24小时内发货。您昨天下的订单，今天会安排发出，发货后会有物流信息更新，请注意查收哦~"
  },
  {
    "instruction": "安抚不满的客户",
    "input": "我等了三天还没收到货，太慢了！",
    "output": "非常抱歉给您带来不好的体验！我马上帮您查询物流状态。由于近期订单量较大，可能会有一些延迟，请您谅解。我会持续跟进，尽快给您答复。"
  },
  {
    "instruction": "根据用户需求推荐商品",
    "input": "我想买一个适合办公室用的保温杯，有什么推荐吗？",
    "output": "根据您的需求，我推荐这几款：1. XX品牌商务保温杯，简约设计，保溫12小时；2. YY品牌智能保温杯，带温度显示；3. ZZ品牌轻便型，方便携带。您可以根据喜好选择~"
  }
]

准备100-200条这样的对话数据，覆盖各种常见场景。

4.3 训练配置

针对客服场景，我们可以这样配置：

train_args = TrainArguments(
    # 基础配置
    model_name_or_path="Qwen/Qwen2-7B-Instruct",  # 选择对中文友好的模型
    dataset="customer_service_data",
    
    # LoRA配置
    finetuning_type="lora",
    lora_target="q_proj,v_proj,k_proj,o_proj",  # 多改一些层，效果更好
    lora_rank=32,                              # 客服对话需要一定复杂度
    lora_alpha=64,
    
    # 训练参数
    output_dir="./customer_service_model",
    per_device_train_batch_size=2,
    gradient_accumulation_steps=8,              # 累积梯度，模拟更大批次
    learning_rate=3e-4,                         # 稍大的学习率
    num_train_epochs=5,                         # 多训练几轮
    
    # 优化配置
    fp16=True,
    logging_steps=20,
    evaluation_strategy="steps",                # 定期评估
    eval_steps=50,
    
    # 客服场景特殊配置
    max_length=512,                             # 对话可能较长
    padding_side="right",                       # 右填充更适合生成
)

4.4 训练和评估

开始训练后，你可以定期测试模型效果：

# 训练过程中的测试
test_cases = [
    "我的订单号是12345，帮我查一下物流",
    "这个商品有优惠吗？",
    "我不太会使用这个产品，能教教我吗？",
    "我要投诉！商品质量有问题！"
]

for i, test_case in enumerate(test_cases, 1):
    response = chat_with_model(test_case)
    print(f"测试{i}: {test_case}")
    print(f"模型回答: {response}")
    print("-" * 50)

4.5 效果对比

训练完成后，对比一下效果：

训练前（基础模型）：

用户："我的订单什么时候发货？"
模型："订单发货时间取决于多种因素，包括库存情况、物流安排等。"

训练后（LoRA微调后）：

用户："我的订单什么时候发货？"
模型："您好！一般订单会在24小时内发货。您的订单已经处理中，今天内会安排发出，请留意物流信息哦~"

看到区别了吗？训练后的模型：

更有礼貌，使用了"您好"等客服用语
回答更具体，给出了"24小时内"的具体时间
语气更亲切，加了"哦~"这样的语气词
提供了后续指引"请留意物流信息"

5. LoRA微调的进阶技巧

5.1 如何选择LoRA目标层

lora_target参数决定了LoRA修改模型的哪些部分。不同层的作用不同：

# 方案1：只改注意力机制（最常用）
lora_target="q_proj,v_proj"  # 只改查询和值投影
# 优点：效果好，资源省
# 适合：大多数任务

# 方案2：改更多注意力层
lora_target="q_proj,v_proj,k_proj,o_proj"  # 改所有注意力投影
# 优点：能力更强
# 适合：复杂任务

# 方案3：改所有线性层
lora_target="all"  # 改所有线性层
# 优点：效果最好
# 缺点：需要更多资源
# 适合：资源充足，追求极致效果

# 方案4：自定义选择
lora_target="gate_proj,up_proj,down_proj"  # 改FFN层
# 适合：特定类型的任务

选择建议：

新手从q_proj,v_proj开始
如果效果不够好，尝试q_proj,v_proj,k_proj,o_proj
资源充足且任务复杂，可以尝试all

5.2 秩（rank）的选择策略

lora_rank控制LoRA的"学习能力"，就像大脑的"思考深度"：

# 不同rank的对比实验
rank_configs = [
    {"rank": 8, "适合": "简单任务，如文本分类"},
    {"rank": 16, "适合": "大多数任务，如对话生成"},
    {"rank": 32, "适合": "复杂任务，如代码生成"},
    {"rank": 64, "适合": "需要强记忆的任务"},
    {"rank": 128, "适合": "资源充足的研究实验"},
]

# 实际选择时考虑：
# 1. 任务复杂度：越复杂需要rank越高
# 2. 数据量：数据越多可以支持更高的rank
# 3. 硬件限制：rank越高需要越多内存

一个实用的选择方法：

从rank=16开始
如果训练损失下降很慢，尝试增加到32
如果过拟合（训练集很好但测试集差），尝试降低到8
观察GPU内存使用，确保不超过80%

5.3 多任务LoRA适配

LoRA的一个强大功能是支持多个适配器，就像给模型准备多副"眼镜"：

# 训练多个LoRA适配器
# 第一个：客服助手
train_customer_service(args1)
# 保存为：./adapters/customer_service

# 第二个：代码助手  
train_code_assistant(args2)
# 保存为：./adapters/code_assistant

# 使用时动态切换
def load_adapter(adapter_path):
    # 加载不同的LoRA适配器
    model.load_adapter(adapter_path)
    return model

# 早上当客服助手
model = load_adapter("./adapters/customer_service")
answer1 = model.chat("我的订单问题...")

# 下午当代码助手
model = load_adapter("./adapters/code_assistant")  
answer2 = model.chat("帮我写一个Python函数...")

这样，一个基础模型可以扮演多个角色，根据需要切换，非常灵活。

5.4 混合精度训练优化

为了进一步节省内存，可以使用混合精度训练：

train_args = TrainArguments(
    # ... 其他参数
    
    # 混合精度配置
    fp16=True,                    # 使用半精度浮点数
    # 或者
    bf16=True,                    # 使用BF16格式（如果硬件支持）
    
    # 梯度检查点（用时间换空间）
    gradient_checkpointing=True,  # 进一步节省内存
    
    # 优化器选择
    optim="adamw_8bit",          # 8位优化器，省内存
    
    # 如果内存还是不够，可以尝试
    per_device_train_batch_size=1,  # 减小批次大小
    gradient_accumulation_steps=16,  # 增加梯度累积
)

这些技巧可以让你在有限的硬件上训练更大的模型。

6. 常见问题与解决方案

6.1 训练效果不好怎么办？

问题：训练后模型效果提升不明显，甚至变差了。

可能原因和解决方案：

数据质量问题

# 检查数据
# 1. 数据量是否足够？（至少100条）
# 2. 数据质量是否高？（指令清晰，输出准确）
# 3. 数据是否多样？（覆盖各种场景）

# 解决方案：清洗数据，增加高质量样本

学习率不合适

# LoRA通常需要较大的学习率
# 尝试范围：1e-4 到 5e-4

# 可以尝试学习率预热
warmup_steps=100,  # 前100步逐渐增加学习率
lr_scheduler_type="cosine",  # 余弦衰减

训练轮数不够或过多

# 观察训练损失曲线
# 如果损失还在下降 → 增加epoch
# 如果损失波动或上升 → 减少epoch

# 一般建议：3-10个epoch
num_train_epochs=5,

模型选择不当

# 不同任务适合不同基础模型
# 中文任务：Qwen、ChatGLM、Baichuan
# 代码任务：CodeLlama、StarCoder
# 通用任务：Llama、Mistral

model_name_or_path="Qwen/Qwen2-7B-Instruct",  # 中文任务首选

6.2 训练过程中内存不足

问题：训练时出现CUDA out of memory错误。

解决方案：

# 方案1：减小批次大小
per_device_train_batch_size=1,  # 从4减小到1

# 方案2：增加梯度累积
gradient_accumulation_steps=8,  # 从4增加到8
# 效果相当于批次大小=8，但内存只用了批次大小=1

# 方案3：使用梯度检查点
gradient_checkpointing=True,  # 用计算时间换内存空间

# 方案4：降低LoRA秩
lora_rank=8,  # 从16降低到8

# 方案5：使用QLoRA（如果支持）
finetuning_type="qlora",  # 使用4位量化，更省内存

6.3 模型过拟合

问题：在训练数据上表现很好，但在新数据上表现差。

识别方法：

训练损失持续下降，但验证损失开始上升
模型开始"背诵"训练数据，而不是理解

解决方案：

# 1. 增加数据量
# 这是最有效的方法

# 2. 使用早停（early stopping）
load_best_model_at_end=True,  # 训练结束时加载最佳模型
metric_for_best_model="eval_loss",  # 根据验证损失选择
greater_is_better=False,  # 损失越小越好

# 3. 增加正则化
weight_decay=0.01,  # 权重衰减

# 4. 使用Dropout（如果模型支持）
hidden_dropout_prob=0.1,  # 隐藏层dropout
attention_probs_dropout_prob=0.1,  # 注意力dropout

# 5. 减少训练轮数
num_train_epochs=3,  # 从5减少到3

6.4 训练速度太慢

问题：训练一个epoch需要很长时间。

优化方案：

# 1. 使用更大的批次大小（如果内存允许）
per_device_train_batch_size=4,  # 从2增加到4

# 2. 使用Flash Attention（如果硬件支持）
use_flash_attention_2=True,  # 显著加速注意力计算

# 3. 优化数据加载
dataloader_num_workers=4,  # 增加数据加载线程
dataloader_pin_memory=True,  # 固定内存，加速数据传输

# 4. 使用更快的优化器
optim="adamw_bnb_8bit",  # 8位AdamW优化器

# 5. 减少输出频率
logging_steps=50,  # 从10增加到50，减少IO开销
save_steps=500,   # 从100增加到500

7. LoRA微调的最佳实践总结

7.1 配置参数推荐表

根据不同的任务类型和硬件条件，这里有一个快速配置参考：

任务类型	推荐模型	LoRA rank	学习率	批次大小	训练轮数	适合硬件
文本分类	Qwen-7B	8-16	2e-4	4-8	3-5	RTX 3060+
对话生成	ChatGLM3	16-32	3e-4	2-4	5-8	RTX 4070+
代码生成	CodeLlama	32-64	5e-4	1-2	10-15	RTX 4090
创意写作	Llama3	16-32	2e-4	2-4	5-10	RTX 3080+
多轮对话	Qwen-14B	32	2e-4	1-2	3-5	RTX 4090

7.2 训练流程检查清单

开始训练前，按照这个清单检查：

# 1. 数据检查
# [ ] 数据格式正确（instruction/input/output）
# [ ] 数据量足够（至少100条）
# [ ] 数据质量高（无错误，覆盖全面）
# [ ] 数据已拆分（训练集/验证集）

# 2. 配置检查
# [ ] 基础模型选择正确（适合任务）
# [ ] LoRA参数合理（rank/alpha/target）
# [ ] 学习率适中（1e-4到5e-4）
# [ ] 批次大小合适（不超内存）

# 3. 硬件检查
# [ ] GPU内存足够（预留20%余量）
# [ ] 磁盘空间足够（保存模型和日志）
# [ ] 训练时间预估合理

# 4. 训练监控
# [ ] 损失曲线正常下降
# [ ] 验证损失不过早上升
# [ ] 内存使用稳定
# [ ] 定期保存检查点

7.3 效果评估方法

训练完成后，如何评估模型效果？

# 1. 自动评估（如果有测试集）
from sklearn.metrics import accuracy_score, f1_score

# 计算准确率、F1分数等
predictions = model.predict(test_data)
accuracy = accuracy_score(true_labels, predictions)

# 2. 人工评估（更可靠）
test_cases = [
    ("用户输入1", "期望输出1"),
    ("用户输入2", "期望输出2"),
    # ...更多测试用例
]

scores = []
for user_input, expected in test_cases:
    actual = model.chat(user_input)
    # 人工打分：1-5分
    score = human_evaluate(actual, expected)
    scores.append(score)

average_score = sum(scores) / len(scores)

# 3. A/B测试（线上环境）
# 将新模型和旧模型同时部署
# 随机分配用户请求
# 比较用户满意度、问题解决率等

7.4 部署上线建议

训练好的LoRA模型如何部署使用？

# 方案1：直接使用（开发测试）
from llama_factory import load_model

model, tokenizer = load_model({
    "model_name_or_path": "基础模型",
    "adapter_name_or_path": "你的LoRA适配器",
})

# 方案2：合并模型（生产环境）
# 将LoRA权重合并到基础模型中
merged_model = model.merge_and_unload()
merged_model.save_pretrained("./merged_model")

# 然后像普通模型一样加载
from transformers import AutoModelForCausalLM
production_model = AutoModelForCausalLM.from_pretrained("./merged_model")

# 方案3：API服务
# 使用FastAPI等框架封装
from fastapi import FastAPI
app = FastAPI()

@app.post("/chat")
async def chat_endpoint(request: ChatRequest):
    response = model.chat(request.message)
    return {"response": response}

# 方案4：批量处理
def batch_process(questions):
    # 批量处理多个问题
    responses = []
    for q in questions:
        responses.append(model.chat(q))
    return responses

8. 总结：LoRA微调的核心价值

通过上面的详细介绍，你应该已经对LoRA微调有了全面的了解。让我们最后总结一下它的核心价值：

1. 资源友好，让每个人都能玩转大模型

只需要10%左右的内存就能达到90%的效果
消费级显卡（RTX 3060以上）就能训练7B模型
训练时间从几天缩短到几小时

2. 灵活高效，一个模型多种用途

可以训练多个LoRA适配器，随时切换
不破坏原始模型，保持基础能力
适配器文件小，易于分享和部署

3. 效果显著，专业任务轻松搞定

在特定任务上可以达到接近全参数微调的效果
特别适合领域知识注入、风格迁移、任务适配
通过合理配置，效果可以不断优化

4. 生态完善，工具链成熟

Llama Factory等工具让使用变得简单
社区有大量预训练适配器可以借鉴
与现有工作流无缝集成

5. 未来可期，持续进化中

新的变体不断出现（DoRA、LoRA+等）
与量化、蒸馏等技术结合
在更多场景中得到验证和应用

LoRA微调技术真正实现了"小成本，大收益"。它降低了AI定制化的门槛，让更多的开发者、研究者、企业能够利用大模型的能力解决实际问题。

无论你是想做一个智能客服、一个写作助手、一个代码生成工具，还是一个专业领域的问答系统，LoRA微调都能帮你快速实现。而且随着工具链的不断完善，这个过程会变得越来越简单。

现在，是时候动手尝试了。选择一个你感兴趣的任务，准备一些数据，用Llama Factory配置几个参数，开始你的第一个LoRA微调项目吧。你会发现，定制自己的AI助手，原来可以这么简单。

获取更多AI镜像

想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

加入AMD AI开发者计划！

免费领 100 小时云算力，进群参与显卡、AI PC 幸运抽奖

更多推荐

【大语言模型系列·第 04 篇】推理部署：从实验室到生产——延迟、吞吐与成本的三维优化

AMD开发者中国社区

5 分钟跑通第一个 LLM 程序：从零到 Hello AI

AMD开发者中国社区

Qwen3.5-27B去审查模型：本地部署与多模态应用实践

大语言模型（LLM）通过海量数据训练，具备了强大的文本理解和生成能力。其核心原理基于Transformer架构，通过注意力机制捕捉长距离依赖关系，从而在对话、创作、代码生成等场景中展现价值。在实际应用中，模型的安全对齐机制有时会限制其在特定技术探索和创意场景下的灵活性。为此，社区出现了“去审查”模型变体，通过技术手段调整模型行为，旨在实现更高的响应自由度。本文聚焦于Qwen3.5-27B-Unce