LlamaFactory：一站式大模型微调框架，降低LLM定制化门槛

大语言模型（LLM）的微调是AI应用落地的关键环节，它通过调整预训练模型的参数，使其适应特定任务或领域数据。其核心原理在于利用迁移学习，在保留通用知识的基础上注入新信息。参数高效微调技术（如LoRA、QLoRA）通过引入少量可训练参数，在显著降低计算和内存成本的同时，实现媲美全参数微调的效果，技术价值在于让大模型定制化变得平民化。这广泛应用于智能客服、内容生成、代码辅助等场景。本文聚焦于开源框架L

白街山人

512人浏览 · 2026-05-17 13:54:07

白街山人 · 2026-05-17 13:54:07 发布

1. 项目概述：一站式大模型微调框架的诞生

在人工智能领域，尤其是大语言模型（LLM）的浪潮中，一个核心的痛点正变得越来越突出： 模型训练的门槛 。对于大多数开发者、研究者甚至是有一定技术背景的业务团队而言，从Hugging Face下载一个动辄数十GB的预训练模型（如Llama、Qwen、ChatGLM）只是第一步。如何根据自己的数据，高效、低成本、稳定地对这个“庞然大物”进行微调，使其具备特定领域的知识或技能，才是真正将技术转化为价值的“最后一公里”。然而，这个过程往往伴随着复杂的依赖环境配置、晦涩难懂的脚本参数、对硬件资源的精确把控以及层出不穷的兼容性问题，足以劝退一大批热情的探索者。

正是在这样的背景下， LlamaFactory 项目应运而生。它不是一个全新的模型，而是一个 开源、统一、高效的大语言模型微调框架 。你可以把它想象成一个为LLM微调量身定制的“瑞士军刀”或“一站式工厂”。它的核心目标极其明确： 将复杂、碎片化的微调流程标准化、模块化和傻瓜化 ，让用户能够以最小的学习成本和配置代价，快速启动并完成从数据准备到模型训练、评估、乃至部署的完整闭环。

我第一次接触LlamaFactory是在尝试微调一个7B参数的模型来处理特定格式的客服对话时。当时，我不得不在不同的GitHub仓库、官方文档和社区论坛之间来回切换，处理PyTorch版本冲突、CUDA驱动问题、内存溢出错误……整个过程耗时耗力。而LlamaFactory的出现，就像在混乱的工地上搭建起了一个标准化的装配车间。它通过统一的命令行接口和Web UI，将数据格式化、训练方法选择（如全参数微调、LoRA、QLoRA）、超参数配置、训练监控、模型合并与导出等环节全部封装起来。用户只需要关心自己的数据和任务目标，剩下的“脏活累活”都交给框架来处理。

这个项目之所以迅速在GitHub上获得大量关注（star数快速增长），正是因为它精准地击中了当前LLM应用落地的核心瓶颈。它不仅支持包括Llama、Mistral、Qwen、ChatGLM、Baichuan、InternLM等在内的 数十种主流开源模型 ，还集成了 多种高效的参数高效微调技术 。更重要的是，它极大地优化了资源使用，通过QLoRA等技术，使得在消费级显卡（如单张RTX 3090/4090）上微调70B级别的大模型成为可能，这无疑为个人开发者和中小企业打开了通往大模型定制化的大门。

2. 核心架构与设计哲学拆解

要理解LlamaFactory为何好用，我们需要深入其设计内核。它不是一个简单的脚本集合，而是一个经过深思熟虑的软件工程产品。

2.1 统一抽象层：化解模型差异的复杂性

不同模型家族（Llama、Qwen、ChatGLM等）有着不同的Tokenizer（分词器）、模型结构（如注意力机制、归一化层）和配置文件格式。直接操作这些底层差异是微调中最令人头疼的部分之一。LlamaFactory的核心设计是构建了一个 统一的模型与数据处理器抽象层 。

这个抽象层对上（用户）提供一致的接口。无论你处理的是Llama-3还是Qwen-7B，在LlamaFactory的配置文件中，你定义数据格式、训练参数的方式几乎是一样的。对下（底层模型），框架内部自动处理了模型加载、权重映射、分词器适配等繁琐细节。例如，当你指定模型路径为 Qwen/Qwen-7B-Chat 时，框架会自动识别这是Qwen系列模型，并调用对应的加载逻辑和对话模板，无需用户手动修改代码去适配不同的 model.from_pretrained 方式。

这种设计带来的直接好处是 可移植性和可复用性 。你的训练脚本和配置，可以几乎不加修改地在不同架构的模型上运行。这在进行模型对比实验或技术选型时，价值巨大。

2.2 模块化训练策略：从全量微调到极致高效

微调策略的选择直接决定了计算成本、内存占用和最终效果。LlamaFactory像一个策略库，将主流且经过验证的方法全部集成进来，并提供了清晰的配置开关。

全参数微调 ：这是最传统的方法，更新模型的所有参数。效果通常最好，但对硬件要求极高，动辄需要数百GB的显存。LlamaFactory支持它，但更倾向于引导用户使用更高效的方法。
LoRA ：这是当前的主流选择。其思想是在原始的预训练模型权重旁，添加额外的、可训练的“旁路”矩阵（低秩适配器）。在训练时，原始的大模型权重被冻结，只训练这些小的适配器。由于适配器秩（rank）很小（通常为8或16），需要训练的参数量可能不到原模型的0.1%，因此显存占用和计算开销大幅降低。训练完成后，可以将适配器权重合并回原模型，得到一个独立的、微调后的新模型文件，推理时无需任何额外开销。
QLoRA ：这是LoRA的“升级版”，也是LlamaFactory的亮点之一。它在LoRA的基础上，引入了 模型权重量化 。首先将预训练模型的权重转换为4-bit精度（如NF4格式），然后再在此量化后的模型上添加LoRA适配器进行训练。这样一来，模型加载时的内存占用可以降低到原来的1/4甚至更少。这使得在24GB显存的消费卡上微调30B-70B的模型成为现实。QLoRA是性价比最高的选择，在效果损失极小的情况下，极大地拓宽了硬件适用范围。

LlamaFactory将这些策略实现为可插拔的模块。在配置文件中，你只需要设置 finetuning_type: lora 或 finetuning_type: qlora ，并配置对应的 lora_rank 、 lora_alpha 等参数，框架就会在后台自动组装训练流程。这种设计让技术选型变成了简单的配置项选择。

2.3 数据处理的标准化流水线

“垃圾进，垃圾出”在机器学习中永远成立。大模型微调对数据格式尤其敏感。LlamaFactory强力推行一种标准化的数据格式，通常是一个JSON文件，其中每条数据都是一个字典，包含 instruction （指令）、 input （输入）、 output （输出）等字段。这种格式虽然简单，但足以覆盖绝大多数有监督微调场景。

框架内置了强大的数据预处理和模板化功能。它知道如何将你的 (instruction, input, output) 三元组，根据所选模型的对话风格（如ChatML格式、Llama的对话格式、Qwen的特殊token等），自动拼接成模型训练时所需的完整文本序列。这意味着，你无需为每个模型单独编写复杂的数据拼接和tokenization代码，极大地减少了数据准备阶段的错误。

实操心得 ：初期最容易犯的错误就是数据格式不对齐。我的建议是，先用框架提供的示例数据格式生成几条样本，然后用框架的“预览”功能（如果有）或写一个小脚本打印出tokenize之后的结果，确保指令、输入、输出被正确地分隔和识别。特别是注意不要有多余的空格或换行符，这可能导致模型学习到错误的模式。

3. 从零开始的完整微调实战

理论说得再多，不如亲手操作一遍。下面我将以一个具体的场景为例，展示如何使用LlamaFactory微调一个模型，让它学会用特定的风格撰写产品评测。

场景：我们有一个小型电商团队，希望有一个AI助手能根据产品特性列表，生成风格统一、突出卖点、符合品牌调性的产品评测短文。我们选择 Qwen-7B-Chat 作为基座模型，因为它中文理解能力强，且对话格式友好。

3.1 环境搭建与安装

首先，需要一个Linux服务器或具备NVIDIA显卡的Linux环境（Windows通过WSL也可行）。假设我们已经安装了Python 3.10和CUDA 12.1。

# 1. 克隆仓库
git clone https://github.com/hiyouga/LLaMA-Factory.git
cd LLaMA-Factory

# 2. 创建并激活虚拟环境（强烈推荐）
python -m venv venv
source venv/bin/activate  # Linux/Mac
# venv\Scripts\activate  # Windows

# 3. 安装依赖
# 使用项目提供的requirements文件，能最大程度避免版本冲突
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

# 4. 安装PyTorch（需根据你的CUDA版本选择）
# 例如，对于CUDA 12.1
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121

安装过程可能会遇到一些依赖冲突，特别是 transformers 、 accelerate 、 bitsandbytes 等包的版本问题。LlamaFactory的 requirements.txt 通常已经锁定了兼容的版本，遵循它是最稳妥的。

避坑指南 ： bitsandbytes 库对QLoRA至关重要，但它的安装有时很棘手。如果遇到编译错误，可以尝试先安装 nvidia-cuda-nvcc-cu12 （对应你的CUDA版本），或者直接使用预编译的wheel文件。另一个常见问题是CUDA版本与PyTorch版本不匹配，务必通过 nvcc --version 和 python -c "import torch; print(torch.version.cuda)" 命令进行双重确认。

3.2 数据准备：构建高质量的指令数据集

我们的数据将是一个JSONL文件（每行一个JSON对象），命名为 product_review_dataset.jsonl 。

{"instruction": "请根据以下产品信息，撰写一篇突出其核心卖点、语言生动活泼的产品评测短文。", "input": "产品名称：清风超薄空调\n核心卖点：1. 机身仅15cm超薄设计；2. 一键防直吹功能；3. 新一级能效，省电50%；4. 自清洁技术。", "output": "嘿，各位追求品质生活的朋友们，今天给大家种草的是一款能让家居空间瞬间‘瘦身’的科技好物——清风超薄空调！它的机身仅仅15厘米，薄如一本杂志，完美融入各种装修风格，告别传统空调的笨重感。\n最让我心动的是它的‘一键防直吹’功能，冷风温柔送达，再也不用担心被冷风‘怼脸吹’而感冒了。对于精打细算的大家庭来说，它的新一级能效更是福音，相比普通空调省电高达50%，长久使用下来，电费账单看得见地减少。\n此外，它还搭载了智能自清洁技术，内部蒸发器能自动清洁除尘，出风始终清新，呵护家人呼吸健康。总之，清风超薄空调是一款集美观、健康、节能于一体的高品质选择，绝对是提升夏日幸福感的必备神器！"}
{"instruction": "请根据以下产品信息，撰写一篇突出其核心卖点、语言生动活泼的产品评测短文。", "input": "产品名称：疾速闪电游戏路由器\n核心卖点：1. WiFi 7技术，万兆速率；2. 专属游戏频段，超低延迟；3. 内置游戏加速器；4. 六根高增益天线。", "output": "游戏玩家们，请注意！网络卡顿、延迟飙升的噩梦该终结了。今天评测的这款‘疾速闪电’游戏路由器，简直就是为胜利而生的‘外挂级’装备。它率先搭载了革命性的WiFi 7技术，理论速率突破万兆，让你下载百GB游戏大作如同‘秒传’，4K高清直播毫无压力。\n它特别设置了独立的专属游戏频段，就像为游戏数据开辟了一条VIP高速公路，与其他设备上网流量互不干扰，确保你的每一次操作指令都能以超低延迟直达服务器，告别‘技能已放出，人已回泉水’的尴尬。内置的游戏加速器更是能智能识别上千款游戏，自动优化网络路径。\n外观上，六根霸气的高增益天线，不仅信号覆盖无死角，更营造出满满的战斗氛围感。如果你是一名对网络质量有极致要求的硬核玩家，疾速闪电路由器绝对是让你战力翻倍的不二之选！"}

我们需要准备至少几百条这样的高质量样本。数据质量是微调成功的天花板。样本应覆盖你希望模型学习的各种产品品类和描述风格。

3.3 配置训练参数：关键决策点

LlamaFactory的核心配置文件通常是 train_args.yaml 或通过命令行参数传递。我们创建一个名为 train_qwen_review.yaml 的配置文件：

# 模型与数据配置
model_name_or_path: Qwen/Qwen-7B-Chat  # 从Hugging Face加载模型
dataset_dir: ./data  # 数据目录，里面放我们的jsonl文件
dataset: product_review_dataset  # 数据集名称（对应文件名前缀）
template: qwen  # 使用Qwen模型的对话模板
finetuning_type: qlora  # 使用QLoRA方法，兼顾效果与效率
quantization_bit: 4  # 使用4-bit量化

# LoRA 配置
lora_target: all  # 对哪些模块应用LoRA，通常‘all’或‘q_proj,v_proj’
lora_rank: 64  # LoRA秩，越大能力越强但参数量越多，8-128常见
lora_alpha: 16  # LoRA缩放因子，通常设置为rank的2倍
lora_dropout: 0.1  # Dropout率，防止过拟合

# 训练参数
output_dir: ./saves/qwen-7b-product-review  # 输出目录
per_device_train_batch_size: 4  # 每张显卡的批大小，根据显存调整
gradient_accumulation_steps: 4  # 梯度累积步数，模拟更大批次
learning_rate: 1e-4  # 学习率，QLoRA通常较小
num_train_epochs: 3  # 训练轮数
logging_steps: 10  # 每10步记录一次日志
save_steps: 200  # 每200步保存一次检查点
eval_steps: 200  # 每200步评估一次（如果有验证集）

# 硬件与性能
fp16: true  # 使用混合精度训练，节省显存加速训练
optim: paged_adamw_8bit  # 使用分页的8-bit优化器，进一步节省内存

关键参数解析 ：

lora_rank ：这是LoRA最重要的超参数之一。秩（rank）决定了低秩适配器矩阵的大小。rank=8意味着适配器是8xN和Nx8的矩阵。rank越大，适配器表达能力越强，但参数量也越多，可能更容易过拟合。对于7B模型，从32或64开始尝试是安全的。
per_device_train_batch_size * gradient_accumulation_steps ：这决定了 有效批大小 。例如， batch_size=4 ， accumulation_steps=4 ，则实际更新权重时使用的批大小为16。增大有效批大小通常能使训练更稳定，但需要更多显存或通过累积步数来实现。
learning_rate ：对于微调，尤其是QLoRA，学习率需要设置得比预训练小很多（通常是5e-5到2e-4）。过大的学习率会破坏预训练模型已经学到的宝贵知识。

3.4 启动训练与监控

配置好后，我们可以使用LlamaFactory提供的命令行工具启动训练：

# 基本训练命令
python src/train_bash.py \
  --stage sft \  # 有监督微调阶段
  --do_train \
  --model_name_or_path Qwen/Qwen-7B-Chat \
  --dataset product_review_dataset \
  --template qwen \
  --finetuning_type qlora \
  --quantization_bit 4 \
  --output_dir ./saves/qwen-7b-product-review \
  --overwrite_cache \
  --overwrite_output_dir \
  --config_file train_qwen_review.yaml  # 加载我们的配置文件

# 或者，如果一切参数都写在yaml里，也可以直接指定yaml文件
# python src/train_bash.py --config_file train_qwen_review.yaml

训练开始后，控制台会输出损失（loss）曲线。更直观的方式是使用 TensorBoard 进行监控：

tensorboard --logdir ./saves/qwen-7b-product-review --bind_all

然后在浏览器中打开 http://服务器IP:6006 ，你可以看到损失下降曲线、学习率变化等，这对于判断模型是否在正常学习、是否过拟合至关重要。

实操心得 ：训练初期，损失值通常会快速下降，然后逐渐趋于平缓。如果损失曲线出现剧烈波动或上升，可能是学习率太高、数据有问题或批次大小不合适。此时应暂停训练，检查数据样本（特别是输出部分是否有异常字符），并尝试降低学习率。另外，务必关注GPU显存使用情况，确保没有发生内存泄漏（显存占用持续缓慢增长）。

3.5 模型评估与推理测试

训练完成后，模型检查点保存在 output_dir 中。我们可以使用框架内置的推理脚本来测试效果：

python src/train_bash.py \
  --stage sft \
  --do_predict \  # 执行预测
  --model_name_or_path Qwen/Qwen-7B-Chat \
  --adapter_name_or_path ./saves/qwen-7b-product-review \  # 加载我们训练好的LoRA适配器
  --template qwen \
  --finetuning_type lora \
  --dataset product_review_dataset \
  --output_dir ./predictions

但更常用的方式是启动一个交互式的Web UI或CLI对话界面，进行实时测试。LlamaFactory通常也提供了这样的脚本或指南。我们可以编写一个简单的测试脚本：

from transformers import AutoModelForCausalLM, AutoTokenizer
from peft import PeftModel
import torch

# 加载基础模型和分词器
model_name = "Qwen/Qwen-7B-Chat"
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
base_model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.float16,
    device_map="auto",
    trust_remote_code=True
)

# 加载训练好的LoRA适配器
model = PeftModel.from_pretrained(base_model, "./saves/qwen-7b-product-review")
model = model.merge_and_unload()  # 将适配器权重合并到原模型，便于部署
model.eval()

# 构建输入
instruction = "请根据以下产品信息，撰写一篇突出其核心卖点、语言生动活泼的产品评测短文。"
input_text = "产品名称：静音智能空气净化器\n核心卖点：1. 睡眠模式噪音低于25分贝；2. H13级HEPA滤网，净化效率99.97%；3. 实时PM2.5数显；4. 智能自动模式。"

prompt = f"<|im_start|>system\nYou are a helpful assistant.<|im_end|>\n<|im_start|>user\n{instruction}\n{input_text}<|im_end|>\n<|im_start|>assistant\n"

inputs = tokenizer(prompt, return_tensors="pt").to(model.device)

# 生成文本
with torch.no_grad():
    outputs = model.generate(**inputs, max_new_tokens=500, temperature=0.8, do_sample=True)
    response = tokenizer.decode(outputs[0], skip_special_tokens=True)

# 提取助手回复
print(response.split("<|im_start|>assistant\n")[-1])

理想情况下，模型会生成一篇符合要求的、生动活泼的产品评测。我们需要用多个未见过的产品信息进行测试，观察其风格一致性、卖点覆盖度和语言流畅性。

4. 高级特性与生产化考量

掌握了基础流程后，要真正将微调模型用于生产，还需要了解一些高级特性和最佳实践。

4.1 多种训练任务支持

LlamaFactory不仅支持有监督微调，还支持其他重要任务：

预训练 ：在大规模无标注文本上继续训练，用于领域适应。
奖励模型训练 ：为强化学习从人类反馈中训练奖励模型。
PPO训练 ：直接使用强化学习优化模型输出，使其更符合人类偏好。

4.2 模型合并与导出

使用LoRA/QLoRA训练后，我们得到的是独立的适配器权重文件（通常很小，几十MB）。对于部署，有两种选择：

动态加载 ：在推理时，同时加载基础模型和适配器。优点是节省磁盘空间，部署灵活。但会增加推理时的加载时间和轻微的计算开销。
静态合并 ：将适配器权重合并到基础模型中，得到一个完整的、独立的模型文件。如上文测试脚本中的 merge_and_unload() 。优点是推理速度快，部署简单，与原始模型无差别。LlamaFactory提供了相应的脚本或参数（如 export_model ）来完成此操作。

对于生产环境， 推荐静态合并 ，以简化服务部署流程。

4.3 超参数调优与实验管理

微调效果对超参数敏感。除了之前提到的 learning_rate 、 lora_rank ，还有：

warmup_steps/ratio ：训练初期的学习率预热步数，有助于稳定训练。
max_grad_norm ：梯度裁剪的阈值，防止梯度爆炸。
lr_scheduler_type ：学习率衰减策略，如 cosine 、 linear 。

系统化的实验管理至关重要 。建议为每次实验创建独立的输出目录，并在目录名或日志中记录关键超参数。可以使用工具如 Weights & Biases 或 MLflow 来跟踪实验、记录指标和可视化比较。

4.4 部署与服务化

合并后的模型可以像任何其他Hugging Face模型一样被部署。常见的方案包括：

使用FastAPI或Gradio构建简单的Web API ：快速搭建原型演示。
集成到LangChain或LlamaIndex生态 ：作为RAG（检索增强生成）流程中的核心LLM。
使用专业推理服务器 ：如 vLLM （极高吞吐量）、 TGI 或 OpenAI兼容的API服务器 。LlamaFactory社区也常提供与这些工具的集成示例。

生产环境注意事项 ：

评估是关键 ：在部署前，必须使用一个独立的测试集对模型进行定量评估（如使用BLEU、ROUGE或GPT-4作为裁判），并与微调前的基座模型对比，确保效果有提升。

监控与迭代 ：上线后，收集真实用户与模型的交互数据，特别是bad cases。这些数据是下一轮迭代微调的宝贵原料。

成本控制 ：即使是微调后的7B模型，在持续高并发服务下，推理成本也不容忽视。需要根据业务流量，合理选择推理硬件（CPU/GPU）和优化策略（如量化、动态批处理）。

5. 常见问题排查与效能优化指南

在实际操作中，你几乎一定会遇到各种问题。下面是一个快速排查清单：

问题现象	可能原因	解决方案
训练时GPU显存溢出	批次大小太大、模型太大、未使用量化或梯度累积。	1. 减小 `per_device_train_batch_size` 。 2. 启用 `gradient_checkpointing` （梯度检查点）。 3. 切换到QLoRA ( `finetuning_type: qlora` ) 并设置 `quantization_bit: 4` 。 4. 使用更小的基座模型。
训练损失不下降或为NaN	学习率过高、数据格式错误、存在损坏样本、权重初始化问题。	1. 大幅降低学习率（如从1e-4降到5e-5）。 2. 仔细检查数据格式，确保 `instruction` / `input` / `output` 字段正确，无空值或异常字符。 3. 尝试使用 `fp32` 全精度训练，排除混合精度问题。 4. 验证数据集中是否有极长文本，导致训练不稳定。
模型输出无意义或胡言乱语	过拟合、训练轮数太多、数据质量差、提示模板不匹配。	1. 增加 `lora_dropout` ，或使用更小的 `lora_rank` 。 2. 减少 `num_train_epochs` ，并在验证集上早停。 3. 严格清洗数据，确保输出是高质量、符合预期的。 4. 确认 `template` 参数设置正确，与基座模型匹配。
训练速度非常慢	使用了CPU训练、IO瓶颈（数据读取慢）、网络问题（从远程加载模型）。	1. 确认CUDA可用，模型和数据显示在GPU上。 2. 将数据集预处理成缓存文件（框架通常自动完成）。 3. 提前下载好模型到本地，在配置中使用本地路径。
加载合并后的模型推理出错	模型合并时出错、分词器未同步保存、框架版本不兼容。	1. 使用框架提供的标准导出/合并脚本。 2. 确保保存时同时调用 `tokenizer.save_pretrained()` 。 3. 在相同环境（库版本一致）下进行合并和加载。

效能优化技巧 ：

使用Flash Attention-2 ：如果你的显卡架构支持（如Ampere架构的RTX 30/40系列或更新），在安装支持Flash Attention-2的 transformers 和 flash-attn 库后，可以显著加速训练和推理。在配置中设置 flash_attn: true （如果框架支持）。
数据流优化 ：对于超大数据集，使用 datasets 库的流式加载模式，避免一次性加载所有数据到内存。
梯度累积的权衡 ：增大 gradient_accumulation_steps 可以模拟大批次训练，使优化更稳定，但会延长每个epoch的时间。需要根据实际情况平衡。
选择正确的精度 ：对于大多数微调任务， bf16 混合精度（如果硬件支持）比 fp16 更稳定，数值范围更大，不易出现下溢。

LlamaFactory的价值在于它封装了这些复杂的工程细节，让开发者能更专注于数据、任务和模型效果本身。它降低了大模型定制化的门槛，加速了从想法到原型再到产品的过程。随着项目的不断迭代，它支持的模型、算法和部署选项会越来越丰富，成为连接开源大模型生态与具体行业应用的一座坚实桥梁。

加入AMD AI开发者计划！

免费领 100 小时云算力，进群参与显卡、AI PC 幸运抽奖

更多推荐

NVIDIA H100 GPU架构与vLLM框架优化实践

GPU计算在现代深度学习中扮演着核心角色，其性能优化涉及硬件架构与软件框架的深度协同。以NVIDIA H100为代表的Hopper架构通过第四代Tensor Core和HBM3高带宽内存实现了算力突破，特别是在FP16矩阵运算（GEMM）中展现出显著优势。vLLM框架针对H100硬件特性进行了多项优化，包括连续分页注意力（PagedAttention）和核函数动态选择策略，这些技术显著提升了KV

AMD开发者中国社区

GitHub 热榜项目 - 周榜(2026-05-24)

AMD开发者中国社区

2026年LLM推理加速全景：量化、投机解码与KV Cache工程实战

python# StreamingLLM配置示例（基于transformers）from streaming_llm.enable_streaming_llm import enable_streaming_llmmodel = enable_streaming_llm( model, start_size=4, # 保留的初始token数量 recent_size=2000 # 滑动窗口大小)