大模型定制不用愁！6 种主流策略（RAG/Agent/ 微调）从理论到实践拆解

咔咔学姐kk

468人浏览 · 2025-09-29 14:40:50

咔咔学姐kk · 2025-09-29 14:40:50 发布

大语言模型（LLM）作为深度学习领域的重要突破，依托自监督学习范式完成大规模预训练，其训练过程不仅需要海量文本数据支撑，还需消耗大量计算资源进行参数迭代（通常包含数十亿至千亿级参数）。过去两年间，LLM 彻底重塑了自然语言处理（NLP）的技术格局，在文本理解、内容生成、对话交互等场景中展现出接近人类的语言处理能力，成为推动 AI 工业化应用的核心动力。

但需注意的是，通用 LLM 的 “开箱即用” 特性，难以直接满足垂直领域的专业化需求。例如，金融领域需要模型精准理解合规术语与市场数据，医疗场景要求模型能解读病历与医学文献 —— 而通用模型既无法调用企业内部的专有数据（如客户档案、业务报表），也难以适配封闭环境下的特殊规则（如内网数据交互限制），导致其在实际业务中常表现出 “通用性有余、专业性不足” 的局限。

从零构建 LLM 的门槛极高：不仅需要 TB 级别的高质量标注数据，还需数百台 GPU 集群支撑数周的训练周期，这对中小型团队而言基本不具备可行性。因此，行业内逐渐形成了一套成熟的 LLM 定制体系，通过轻量化、低成本的技术手段，让通用模型快速适配特定场景的专业需求。

一、LLM 定制策略的两大核心范式

所有定制技术均可根据是否修改模型参数，分为两大核心类型，二者在资源消耗、实现难度与适用场景上存在显著差异：

1. 冻结模型参数（无训练成本）

这类技术不改变预训练模型的任何权重，仅通过 “外部引导” 调整模型输出行为，核心逻辑是利用 LLM 的上下文学习能力优化输入方式。由于无需 GPU 算力支持，且开发周期短（通常数天即可落地），成为工业界最常用的定制方案，相关研究也保持高频更新 —— 仅 2024 年，arXiv 上关于提示工程、RAG 的论文就超过 500 篇。

典型技术包括：提示工程、解码与采样策略、检索增强生成（RAG）、Agent 框架（基础版）。

2. 更新模型参数（需训练资源）

这类技术通过特定数据集微调预训练模型，让参数适配专业任务，属于 “深度定制” 范畴。由于需要反向传播更新权重，对计算资源（通常需 8-32 张 A100 GPU）和数据质量（需领域内高质量标注数据）要求较高，但定制效果更持久、专业度更强。

典型技术包括：参数高效微调（PEFT）、基于人类反馈的强化学习（RLHF）。

这两大范式进一步衍生出 6 种主流定制策略，涵盖从 “零成本适配” 到 “深度优化” 的全需求场景。在选择策略前，需先完成基础模型的选型 —— 这是定制工作的前提。

2、如何选择LLM？

定制LLM的第一步是选择合适的基础模型作为基准。例如Huggingface这些基于社区的平台，提供了由顶级公司或社区贡献的各种开源预训练模型，如Meta的Llama系列和Google的Gemini。Huggingface还提供了例如Open LLM Leaderboard这样的排行榜，可以根据行业标准的指标和任务（如MMLU）来比较LLM。

云服务提供商如AWS（亚马逊）和AI公司（如OpenAI和Anthropic）也提供访问专有模型的服务，这些通常是付费服务，且访问受限。

选择LLM时需要考虑以下几个因素：

开源模型还是专有模型： 开源模型允许完全定制和自托管，但需要技术专业知识，而专有模型则提供即时访问，通常可以提供更好的响应质量，但成本较高。
任务和指标： 不同的模型在不同任务上表现出色，包括问答、总结、代码生成等。通过比较基准指标并在特定领域任务上进行测试，来确定合适的模型。
架构： 一般来说，仅解码器模型（如GPT系列）在文本生成方面表现更好，而编码-解码模型（如T5）在翻译任务上表现优秀。现在有更多的架构出现并展现出良好的结果，例如专家混合模型（MoE）DeepSeek。
参数数量和模型大小： 较大的模型（70B-175B参数）通常提供更好的性能，但需要更多的计算资源。较小的模型（7B-13B）运行更快且更便宜，但可能在能力上有所减少。

在确定了基础LLM之后，让我们来看一下六种最常见的LLM定制策略，按资源消耗从最少到最多的顺序排列：

提示工程（Prompt Engineering）
解码与采样策略（Decoding and Sampling Strategy）
检索增强生成（Retrieval Augmented Generation）
Agent
微调（Fine Tuning）
基于人类反馈的强化学习（Reinforcement Learning from Human Feedback）

3、提示工程

提示（Prompt）是发送给LLM的输入文本，用于引发AI生成的响应，它可以由指令、上下文、输入数据和输出指示符组成。

指令： 这是为模型如何执行任务提供的描述或指示。
上下文： 这是外部信息，用于指导模型在特定范围内进行响应。
输入数据： 这是你希望模型生成响应的输入。
输出指示符： 这指定了输出的类型或格式。

提示工程（Prompt Engineering）涉及有策略地设计这些提示组件，以塑造和控制模型的响应。基本的提示工程技术包括零次提示（zero shot prompting）、一次提示（one shot prompting）和少量提示（few shot prompting）。用户可以在与LLM互动时直接实现这些基本提示工程技术，从而高效地使模型的行为与新目标对齐。API实现也是一种选择。

由于提示工程的高效性和有效性，人们也探索和开发出了越来越多的用于提升提示的逻辑结构的复杂方法。

思维链（Chain of Thought，CoT） 要求LLM将复杂的推理任务分解为逐步的思维过程，从而提高多步骤问题的表现。每个步骤都会明确暴露其推理结果，并作为后续步骤的前置上下文，直到得出最终答案。
思维树（Tree of Thought，ToT） 是CoT的扩展，通过考虑多条不同的推理分支并自我评估选择，决定下一步最佳行动。它对于涉及初步决策、未来策略和多种解决方案探索的任务更为有效。
自动推理和工具使用（Automatic Reasoning and Tool use，ART） 在CoT的基础上构建，它解构复杂任务，并允许模型使用预定义的外部工具（如搜索和代码生成）从任务库中选择少量示例。
协同推理与行动（Synergizing Reasoning and Acting，ReAct） 结合了推理轨迹与行动空间，模型在行动空间中搜索，并基于环境观察确定下一步最佳行动。

像CoT和ReAct这样的技术通常与Agent工作流结合使用，以增强其能力。这些技术将在接下来的Agent部分中详细介绍。

4、解码与采样策略

解码策略可以通过推理参数（例如temperature、top_p、top_k）在模型推理时进行控制，从而决定模型响应的随机性和多样性。贪婪搜索、束搜索和采样是三种常见的自回归模型生成的解码策略。

在自回归生成过程中，LLM根据前一个token的条件，基于候选token的概率分布逐个输出token。

默认情况下，使用贪婪搜索来生成概率最高的下一个token。

与此不同，束搜索解码会考虑多个下一个最佳token的假设，并选择在整个文本序列中具有最高综合概率的假设。以下代码片段使用transformers库，在模型生成过程中指定束搜索路径的数量（例如，num_beams=5表示考虑5个不同的假设）：


from transformers import AutoModelForCausalLM,AutoTokenizer

tokenizer= AutoTokenizer.from_pretrained(tokenizer_name)
inputs = tokenizer(prompt, return_tensors="pt")

model = AutoModelForCausalLM.from_pretrained(model_name)
outputs = model.generate(**inputs, num_beams=5)

采样策略是控制模型响应随机性的第三种方法，通过调整这些推理参数：

温度（Temperature）： 降低温度会使概率分布变得更加尖锐，从而增加生成高概率词语的可能性，减少生成低概率词语的可能性。当温度 = 0 时，相当于贪婪搜索（最不具创意）；当温度 = 1 时，会生成最具创意的输出。
Top K采样： 这种方法筛选出K个最可能的下一个token，并在这些token之间重新分配概率。模型从这个筛选出的token集合中进行采样。
Top P采样： 与从K个最可能的token中采样不同，top-p采样从最小的token集合中选择，该集合的累积概率超过阈值p。

以下示例代码片段从累积概率大于0.95（top_p=0.95）的前50个最可能的token中进行采样（top_k=50）：


sample_outputs = model.generate(
    **model_inputs,
    max_new_tokens=40,
    do_sample=True,
    top_k=50,
    top_p=0.95,
    num_return_sequences=3,)

5、 RAG

检索增强生成（Retrieval Augmented Generation，简称RAG），最初在论文《Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks》中提出，已被证明是一种有前景的解决方案，能够将外部知识集成进来，并在处理领域特定或专业查询时减少常见的LLM幻觉问题。RAG允许动态地从知识领域中提取相关信息，并且通常不涉及更新LLM参数的大规模训练，使其成为一种用于将通用LLM适配到特定领域的成本效益高的策略。

RAG系统可以分为检索和生成两个阶段。

检索过程的目标是通过对外部知识进行切块、创建嵌入、索引和相似性搜索，找到与用户查询密切相关的知识库内容。

切块（Chunking）： 将文档划分为较小的段落，每个段落包含一个独立的信息单元。
创建嵌入（Create embeddings）： 嵌入模型将每个信息块压缩为向量表示。用户查询也通过相同的向量化过程转换为向量表示，这样用户查询就可以在相同的维度空间中进行比较。
索引（Indexing）： 这一过程将这些文本块及其向量嵌入存储为键值对，从而实现高效且可扩展的搜索功能。对于超出内存容量的大型外部知识库，向量数据库提供高效的长期存储。
相似性搜索（Similarity search）： 计算查询嵌入与文本块嵌入之间的相似性分数，用于搜索与用户查询高度相关的信息。

RAG系统的生成过程则将检索到的信息与用户查询结合，形成增强的查询，并将其传递给LLM，以生成丰富上下文的响应。

以下代码片段首先指定LLM和嵌入模型，然后执行步骤将外部知识库文档切块为文档集合。接着从文档创建索引，基于索引定义查询引擎，并使用用户提示查询查询引擎。

from llama_index.llms.openai import OpenAI
from llama_index.embeddings.openai import OpenAIEmbedding
from llama_index.core import VectorStoreIndex

Settings.llm = OpenAI(model="gpt-3.5-turbo")
Settings.embed_model="BAAI/bge-small-en-v1.5"

document = Document(text="\\n\\n".join([doc.text for doc in documents]))
index = VectorStoreIndex.from_documents([document])
query_engine = index.as_query_engine()
response = query_engine.query(
    "Tell me about LLM customization strategies."
)

6、Agent

LLM Agent是2024年的热门话题，并且可能在2025年继续成为生成AI领域的主要关注点。

与RAG相比，Agent在创建查询路径和规划基于LLM的工作流方面表现更为出色，具有以下优势：

维护先前模型生成响应的记忆和状态。
根据特定标准利用各种工具。这种工具使用能力使得Agent与基本的RAG系统不同，因为它赋予LLM独立选择工具的控制权。
将复杂任务分解为更小的步骤，并规划一系列动作。
与其他Agent协作，形成一个协调的系统。

可以通过Agent框架实现如CoT、ReAct这几种上下文学习技术，我们将详细讨论ReAct。ReAct代表Synergizing Reasoning and Acting in Language Models（在语言模型中协同推理与行动），由三个关键元素组成——行动、思考和观察。

这个框架由Google Research在普林斯顿大学提出，基于思维链（Chain of Thought）构建，将推理步骤与一个行动空间结合，使得工具使用和函数调用成为可能。此外，ReAct框架强调根据环境观察来确定下一个最佳行动。

以下是原始论文中的一个示例，展示了ReAct的内部工作过程，其中LLM生成第一个思考并通过调用“Search [Apple Remote]”函数进行行动，然后观察其第一次输出的反馈。第二个思考基于先前的观察，从而引导到不同的行动“Search [Front Row]”。这个过程会反复进行，直到达到目标。研究表明，ReAct通过与简单的Wikipedia API交互，克服了在链式推理中常见的幻觉和错误传播问题。此外，通过决策痕迹的实施，ReAct框架还增强了模型的可解释性、可信度和诊断能力。

下面使用llamaindex展示了一个基于ReAct的Agent实现。首先，它定义了两个函数（multiply和add）。其次，这两个函数被封装为FunctionTool，形成了Agent的行动空间，并根据其推理执行。

from llama_index.core.agent import ReActAgent
from llama_index.core.tools import FunctionTool

# 创建基本的函数工具
def multiply(a: float, b: float) -> float:
    return a * b
    
multiply_tool = FunctionTool.from_defaults(fn=multiply)

def add(a: float, b: float) -> float:
    return a + b
    
add_tool = FunctionTool.from_defaults(fn=add)
agent = ReActAgent.from_tools([multiply_tool, add_tool], llm=llm, verbose=True)

当结合自我反思或自我修正时，Agent工作流的优势更加显著。这是一个日益增长的领域，目前正在探索各种Agent架构。

7、微调

微调（Fine-tuning）是向LLM输入特定的领域和专业数据集，以修改模型，使其更好地与某一目标对齐的过程。它不同于提示工程和RAG，因为它允许更新LLM的权重和参数。完全微调指的是通过反向传播更新预训练LLM的所有权重，这需要大量的内存来存储所有权重和参数，并可能导致模型在其他任务上的能力显著下降（即灾难性遗忘）。

因此，PEFT（Parameter Efficient Fine Tuning，参数高效微调）被更广泛地应用，以减轻这些问题，同时节省模型训练的时间和成本。PEFT方法主要分为三类：

选择性微调（Selective）： 选择初始LLM参数的一个子集进行微调，相较于其他PEFT方法，这种方法在计算上可能更加密集。
重参数化（Reparameterization）： 通过训练低秩表示的权重来调整模型权重。例如，低秩适应（Lower Rank Adaptation，LoRA）就是这一类方法之一，通过用两个较小的矩阵表示权重更新，从而加速微调。
加性微调（Additive）： 向模型中添加额外的可训练层，包括适配器（adapters）和软提示（soft prompts）等技术。

微调过程与深度学习训练过程类似，需要以下输入：

训练和评估数据集
训练参数，定义超参数（例如学习率、优化器）
预训练LLM模型
计算度量和算法应优化的目标函数

以下是使用transformers Trainer实现微调的示例：


from transformers import TrainingArguments, Trainer

training_args = TrainingArguments(
    output_dir=output_dir,
    learning_rate=1e-5,
    eval_strategy="epoch"
)

trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=train_dataset,
    eval_dataset=eval_dataset,
    compute_metrics=compute_metrics,    
)   

trainer.train()

微调有广泛的应用场景。例如，指令微调（instruction fine-tuning）通过在prompt-completion（提示-完成）对上进行训练，优化LLM进行对话和遵循指令的能力。另一个例子是领域适应（domain adaptation），这是一种无监督的微调方法，帮助LLM在特定的知识领域中专门化。

8、RLHF

RLHF（Reinforcement Learning from Human Feedback，人类反馈强化学习）是一种强化学习技术，通过基于人类偏好的方式来微调LLM。RLHF的工作原理是通过人类反馈训练一个奖励模型，并将该模型用作奖励函数，通过PPO（Proximal Policy Optimization，近端策略优化）优化强化学习策略。这个过程需要两组训练数据：一组用于训练奖励模型的偏好数据集，和一组用于强化学习循环中的提示数据集。

让我们将其分解成几个步骤：

收集偏好数据集， 由人工标注员对模型生成的不同回答进行评分，标注哪些回答符合人类偏好。偏好数据集的一个示例格式为{input_text, candidate1, candidate2, human_preference}，表示哪个候选答案更受偏好。
使用偏好数据集训练奖励模型， 该奖励模型本质上是一个回归模型，输出一个标量，表示模型生成回答的质量。奖励模型的目标是最大化优胜候选答案与失败候选答案之间的分数。
在强化学习循环中使用奖励模型对LLM进行微调。 目标是更新策略，使得LLM能够生成最大化奖励模型所产生奖励的回答。这个过程使用提示数据集，提示数据集的格式为{prompt, response, rewards}。

开源库 Trlx 被广泛应用于实现RLHF，它提供了一个模板代码，展示了RLHF的基本设置：


#: Transformer Reinforcement Learning library
trl import PPOTrainer, PPOConfig, AutoModelForSeq2SeqLMWithValueHead
from trl import create_reference_model
from trl.core import LengthSampler

# 初始化预训练的模型和分词器
model = AutoModelForCausalLMWithValueHead.from_pretrained(config.model_name)
tokenizer = AutoTokenizer.from_pretrained(config.model_name)

# 定义PPO算法的超参数
config = PPOConfig(
    model_name=model_name,
    learning_rate=learning_rate,
    ppo_epochs=max_ppo_epochs,    
    mini_batch_size=mini_batch_size,    
    batch_size=batch_size
)

# 使用模型初始化PPO训练器
ppo_trainer = PPOTrainer(
    config=config,     
    model=ppo_model,     
    tokenizer=tokenizer,     
    dataset=dataset["train"],    
    data_collator=collator
)                      

# 通过奖励逐步更新
ppo_trainerppo_trainer.step(query_tensors, response_tensors, rewards)

RLHF广泛应用于使模型的回答与人类偏好对齐。常见的使用场景包括减少回答的有害性和模型的幻觉现象。然而，它的缺点是需要大量人工标注的数据， 并且与策略优化相关的计算成本较高。因此，为了缓解这些限制，提出了如 AI反馈强化学习（Reinforcement Learning from AI feedback）和 直接偏好优化（Direct Preference Optimization，DPO）等替代方法。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线科技企业深耕十二载，见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事，早已在效率与薪资上形成代际优势，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套 AI 大模型突围资料包：

✅ 从零到一的 AI 学习路径图
✅ 大模型调优实战手册（附医疗/金融等大厂真实案例）
✅ 百度/阿里专家闭门录播课
✅ 大模型当下最新行业报告
✅ 真实大厂面试真题
✅ 2025 最新岗位需求图谱

所有资料 ⚡️ ，朋友们如果有需要 《AI大模型入门+进阶学习资源包》，下方扫码获取~
在这里插入图片描述

① 全套AI大模型应用开发视频教程

（包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点）
在这里插入图片描述

② 大模型系统化学习路线

作为学习AI大模型技术的新手，方向至关重要。正确的学习路线可以为你节省时间，少走弯路；方向不对，努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划，带你从零基础入门到精通！
在这里插入图片描述

③ 大模型学习书籍&文档

学习AI大模型离不开书籍文档，我精选了一系列大模型技术的书籍和学习文档（电子版），它们由领域内的顶尖专家撰写，内容全面、深入、详尽，为你学习大模型提供坚实的理论基础。
在这里插入图片描述

④ AI大模型最新行业报告

2025最新行业报告，针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估，以了解哪些行业更适合引入大模型的技术和应用，以及在哪些方面可以发挥大模型的优势。
在这里插入图片描述

⑤ 大模型项目实战&配套源码

学以致用，在项目实战中检验和巩固你所学到的知识，同时为你找工作就业和职业发展打下坚实的基础。
在这里插入图片描述

⑥ 大模型大厂面试真题

面试不仅是技术的较量，更需要充分的准备。在你已经掌握了大模型技术之后，就需要开始准备面试，我精心整理了一份大模型面试题库，涵盖当前面试中可能遇到的各种技术问题，让你在面试中游刃有余。

以上资料如何领取？

在这里插入图片描述

为什么大家都在学大模型？

最近科技巨头英特尔宣布裁员2万人，传统岗位不断缩减，但AI相关技术岗疯狂扩招，有3-5年经验，大厂薪资就能给到50K*20薪！

不出1年，“有AI项目经验”将成为投递简历的门槛。

风口之下，与其像“温水煮青蛙”一样坐等被行业淘汰，不如先人一步，掌握AI大模型原理+应用技术+项目实操经验，“顺风”翻盘！
在这里插入图片描述

这些资料真的有用吗？

这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理，现任上海殷泊信息科技CEO，其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证，服务航天科工、国家电网等1000+企业，以第一作者在IEEE Transactions发表论文50+篇，获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的技术人员，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。
在这里插入图片描述

以上全套大模型资料如何领取？

在这里插入图片描述

北京朝阳AI社区

更多推荐

大模型微调实践——Prefix tuning与P-tuning v2的原理、区别与代码解析最终章

北京朝阳AI社区

大模型微调-LoRA原理代码详细解读

北京朝阳AI社区

2024提示工程架构师技术热点：大模型Agent与Prompt工程的融合

大模型Agent是具备自主能力的AI系统，它以大模型为核心，通过“感知-决策-执行-记忆”的闭环，完成复杂任务。感知（Perception）：接收多模态输入（文本、图像、语音、工具返回结果）；决策（Decision）：基于输入和记忆，规划任务步骤（比如“先查天气，再订酒店”）；执行（Action）：调用工具（API、代码、数据库）或直接生成输出；记忆（Memory）：存储短期上下文（当前任务信息）