玩转大模型API：参数调优全攻略，小白也能快速上手！

文章系统介绍了大语言模型API调用的参数使用技巧，包括提示词工程和关键参数配置。详细解析了输出长度(max_tokens)、温度(temperature)、Top-K与Top-P采样设置等参数如何影响模型输出，并提供了针对不同场景的参数配置建议。同时，文章还探讨了参数间的相互影响，以及解决输出过长、重复循环等常见问题的实用方法，帮助开发者优化大语言模型的应用效果。

和老莫一起学AI

282人浏览 · 2025-09-29 10:47:11

和老莫一起学AI · 2025-09-29 10:47:11 发布

引言

在使用大语言模型（LLM）的过程中，提示词设计与 API 参数配置直接决定了生成结果的质量与稳定性。许多初学者只关注提示词，却忽略了模型输出长度、采样策略和温度等参数的调优，结果不是输出过长、冗余重复，就是风格不符、偏离预期。本文结合我的实践经验，系统总结了提示词工程与常用参数配置的要点，帮助你在实际应用中快速找到合适的配置方案，避免常见陷阱。

一、提示词工程

LLM 提示词工程（Prompt Engineering）是与大语言模型交互的一种方法论。它的核心是设计、调整和优化提示词，让模型在给定上下文中产生更准确、有用或符合风格的输出。

这不仅仅是“问问题”，而是要考虑提示的角色设定、任务描述、格式要求和限制条件。

实际上LLM 的工作原理是一个预测引擎。模型以连续的文本作为输入，并根据它所训练过的数据来预测下一个 token 应该是什么。LLM 会不断重复这一过程，将先前预测的 token 追加到已有文本序列的末尾，再据此预测下一个 token。每一次预测都依赖于前面已有 token 与模型在训练阶段所见文本之间的关系。

在这里插入图片描述

撰写提示词时，你其实是在为LLM 铺设“正确 token 序列”的预测轨道。提示工程就是设计高质量提示、引导模型产出准确结果的过程：

反复打磨，找到最佳措辞
优化长度与结构
评估文风是否与任务匹配

在LLM 语境下，提示正词是为模型生成回答或预测所提供的输入。作为开发者，除了提示词本身，我们还需要反复调试 LLM 的各项配置参数。

二、LLM参数

LLM 参数指的是大语言模型在训练或API调用过程中用到的内部权重与数值。这些参数通常多达数十亿，用于捕捉语言中的语法、语义、上下文以及词与词之间的关系。模型的参数越多，通常意味着它具备更强的理解与生成能力，能够处理更复杂的内容，因此成为决定模型性能与复杂度的核心因素。

在这里插入图片描述

三、大语言模型API调用常用参数

1.LLM输出长度

一个重要的配置项是“max_tokens”。生成更多 token 会显著增加 LLM 的计算量，导致能耗上升、响应时间延长，最终使成本增加。缩短输出长度并不会让 LLM 的“文风”变得更简洁，它只是到上限就停止续写。若你确实需要简短结果，还得在提示里专门设计，例如明确要求“用一句话概括”或“限100 字以内”。

输出长度限制对某些提示技术（如ReAct）尤为关键，否则模型会在给出所需答案后继续生成无意义的 token。

2.温度

温度（temperature）用于控制LLM在选词时的随机程度：

低温度 → 输出更确定、可预测

高温度 → 输出更多样、可能出现意外结果

温度设为 0（贪婪解码）时完全确定：始终选择概率最高的 token（若出现概率并列，则取决于具体的平局打破方式，此时即使温度为 0 也可能产生不同输出）。

当温度接近最大值时，生成的输出会变得更加随机；随着温度不断升高，所有 token 被选为下一个预测词的概率将趋于均等。

DeepSeek的温度默认值是1.0，并建议根据如下表格，按使用场景设置 temperature

场景	温度
代码生成/数学解题	0.0
数据抽取/分析	1.0
通用对话	1.3
翻译	1.3
创意类写作/诗歌创作	1.5

3.Top-K与 Top-P

Top-K 和 Top-P是两种用于限制模型预测词范围的采样设置，它们都只让概率最高的那部分 token 参与抽样。与温度一样，这两个参数共同影响生成文本的随机程度和多样性。

3.1 Top-K (Nucleus Sampling)采样从模型预测的分布中选出概率最高的前K 个 token 作为候选。K 值越大 → 候选池越大 → 输出越有创意和变化；K 值越小 → 候选池越小 → 输出越保守、越贴近事实；K = 1 时每次都选概率最高的那个 token。

经验推荐：

常规任务：20~50。
需要创造性：50~100。

3.2 Top-P采样按概率从高到低累加，直到总和首次超过设定阈值 P 为止，这些 token 组成候选池。P = 0 → 仅保留概率最高的 1 个 token；P = 1 → 保留整个词汇表（相当于不裁剪）；中间值则动态决定“核”的大小，兼顾多样性与相关性。

经验推荐：

事实性回答：0.8 ~ 0.9。
创意任务：0.95 ~ 0.99。

在 Top-K 与 Top-P 之间做选择的最佳方法就是：同时实验两种采样（或组合使用），看哪一种最能满足你的需求。

4.存在惩罚

存在惩罚（Presence Penalty）会抑制模型在生成文本时重复相同的词语或概念。该参数有助于避免输出内容重复，并提升语言多样性，在生成较长文本（如文章或对话）时尤其实用。

5.频率惩罚

频率惩罚（Frequency Penalty）会降低已多次出现词语再次被采样的概率，从而抑制重复、增加词汇多样性；数值越大，模型越倾向于避开高频词，生成更丰富、不冗余的文本。

四、综合技巧

1 参数关联影响

top-K、top-P、temperature 和生成长度（max_tokens）这些参数彼此影响，如何搭配它们取决于应用场景和期望的结果。我们务必先弄清它们是如何协同工作的，再动手调参。

如果温度temperature、top-K和 top-P 三者都可用，系统会先取同时满足 top-K 和 top-P 条件的 token 作为候选，再对这些候选应用温度采样。若仅开启 top-K 或 top-P 之一，流程相同，只是裁剪步骤只剩对应的那一个。

如果温度参数不可用，系统将从满足 top-K 和/或 top-P 条件的候选 token中随机抽取一个作为下一个预测词。

当某一采样参数被调到极端值时，它要么抵消其他设置，要么自身失去意义。

n 如果你把 temperature 设为 0，top-K和 top-P 就失去作用，模型永远选择概率最高的那个token 作为下一个预测词。如果你把 temperature 设得极高（>1，通常要到 10 左右），temperature同样失去作用：此时只在通过 top-K 和/或 top-P 过滤后留下的候选 token 里随机抽取下一个词。

n 如果你把 top-K 设为 1，temperature和 top-P 就失去作用，只有一个 token 满足 top-K 条件，它必定成为下一个预测词。如果你把 top-K 设得极高，比如等于 LLM 词汇表的大小，那么任何概率不为零的 token 都会满足 top-K 条件，相当于没有任何 token 被过滤掉。

n 如果你将 top-P 设为 0（或一个非常小的值），大多数 LLM 采样实现将只考虑概率最高的那个 token 满足 top-P 条件，从而使 temperature 和 top-K 失去作用。如果你将 top-P 设为 1，任何概率不为零的 token 都会满足 top-P 条件，相当于没有任何 token 被过滤掉。

2 合理化建议

n 稳妥输出（偏事实）：作为通用起点，temperature 0.2、top-P 0.95、top-K 20~30 能给出相对连贯、略带创意但不过度的结果；

n 高创作性：若追求更高创意，可先用 temperature 0.9、top-P 0.99、top-K 40；

n 低创作性若想降低创意，可先用 temperature 0.1、top-P 0.9、top-K 20；

n 稳定输出：若任务只有一个正确答案（如数学题），直接把 temperature 设为 0。

**注意：**当给予模型更多自由度（提高 temperature、top-K、top-P 或输出token 数）时，LLM 生成的文本可能会变得不那么相关。

3 常见问题：

3.1 重复循环缺陷

你是否见过模型在回答末尾堆砌大量无意义填充词？这被称为“重复循环缺陷”（repetition loop bug），是大语言模型的常见问题—模型陷入循环，不断重复同一个（填充）词、短语或句式，常因温度与top-k/top-p 设置不当而加剧。

该缺陷在低温和高温下都可能出现，原因各异：

n 低温时，模型过度确定，死抠最高概率路径，一旦该路径回到已生成文本，就会原地打转；

n 高温时，输出过于随机，海量候选词里某个随机选择可能偶然把模型带回之前的状态，同样形成循环。

两种情况都会让采样机制“卡死”，持续输出单调无用的内容，直到填满输出窗口。解决这一问题通常需要反复微调温度与 top-K/top-P 值，找到确定性与随机性之间的最佳平衡点。

3.2 输出过长

n 原因

ü max_tokens 设置太大导致模型有足够“额度”就会继续写下去。

ü 提示里没有明确“停点/长度约束” → 模型不知道何时应该停止。

ü 提示或格式没有强制输出边界（例如未指定返回 JSON/单句/字数限制）

n 解决办法

ü 在提示里强制长度/格式（最关键）

直接写：“请用一句话概括，不超过 30 字。只返回该一句话，不要解释。”

或要求 JSON：“只返回JSON：{“summary”:“…”}，summary 最多 20 字。”

ü 设置 max_tokens / max_new_tokens

配合提示的长度限制把 max_tokens 设小一点（例如一句话 40–80 token），防止超长输出。

注意：仅改 max_tokens 可能导致截断而非风格变化，仍需提示中声明“简洁”。

ü 使用 stop sequence（停止符）

在 prompt 末尾放一个明确结束标记，比如 \n###END###，并在 API 的 stop 参数里填 [“###END###”]，模型遇到该标记就停止输出。

适用于需要严格截断的结构化输出场景。

ü Few-shot 示范（用短示例教模型“如何停”）

在 prompt 前给 1–2 个“示例输入 → 单句输出”的样例，模型会模仿短格式。

3.3 输出过于随意

n 原因

ü temperature、top_p 或top_k 设得过高会导致生成更随机、更“创意化”的表达。

ü 提示没有明确“写作风格/语气/受众”，模型自由发挥风格。

ü 没有示例或样式约束，模型难以把握正式度。

n 解决办法

ü 降低随机性参数

把 temperature 调低（例如 0–0.3）可以显著提升正式性与确定性。

将 top_p 收紧到 0.8–0.95，或将 top_k 设为 20–40，减少奇怪词汇出现的概率。

ü 在 prompt 里强制语气/风格（马上生效）

明确写：“以正式、技术文档风格回答；避免口语、俚语与缩写。”

更严格：给出一些语气范例（few-shot），比如“示例回答（正式）: …”。

ü 使用角色/系统讯息（chat 型 API）

system：“You are a senior technical writer. Use formal tone, concise sentences, no slang.”

然后在 user prompt 中下具体任务。

ü 使用示例（few-shot）教化语气

给 1–3 个“问题 → 正式答案”对照示例，模型会更容易模仿正式风格。

ü 抗重复与风格稳定的额外参数（若 API 支持）

frequency_penalty、presence_penalty（例如 0.2–0.6）能减少重复与无聊循环；对“随意表达”有一定抑制作用。

普通人如何抓住AI大模型的风口？

领取方式在文末

为什么要学习大模型？

目前AI大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用，大模型作为其中的重要组成部分，正逐渐成为推动人工智能发展的重要引擎。大模型以其强大的数据处理和模式识别能力，广泛应用于自然语言处理、计算机视觉、智能推荐等领域，为各行各业带来了革命性的改变和机遇。

目前，开源人工智能大模型已应用于医疗、政务、法律、汽车、娱乐、金融、互联网、教育、制造业、企业服务等多个场景，其中，应用于金融、企业服务、制造业和法律领域的大模型在本次调研中占比超过 30%。
在这里插入图片描述

随着AI大模型技术的迅速发展，相关岗位的需求也日益增加。大模型产业链催生了一批高薪新职业：
在这里插入图片描述

人工智能大潮已来，不加入就可能被淘汰。如果你是技术人，尤其是互联网从业者，现在就开始学习AI大模型技术，真的是给你的人生一个重要建议！

最后

只要你真心想学习AI大模型技术，这份精心整理的学习资料我愿意无偿分享给你，但是想学技术去乱搞的人别来找我！

在当前这个人工智能高速发展的时代，AI大模型正在深刻改变各行各业。我国对高水平AI人才的需求也日益增长，真正懂技术、能落地的人才依旧紧缺。我也希望通过这份资料，能够帮助更多有志于AI领域的朋友入门并深入学习。

真诚无偿分享！！！
vx扫描下方二维码即可
加上后会一个个给大家发
在这里插入图片描述

大模型全套学习资料展示

自我们与MoPaaS魔泊云合作以来，我们不断打磨课程体系与技术内容，在细节上精益求精，同时在技术层面也新增了许多前沿且实用的内容，力求为大家带来更系统、更实战、更落地的大模型学习体验。

希望这份系统、实用的大模型学习路径，能够帮助你从零入门，进阶到实战，真正掌握AI时代的核心技能！

01 教学内容

从零到精通完整闭环：【基础理论 →RAG开发 → Agent设计 → 模型微调与私有化部署调→热门技术】5大模块，内容比传统教材更贴近企业实战！
大量真实项目案例： 带你亲自上手搞数据清洗、模型调优这些硬核操作，把课本知识变成真本事‌！

02适学人群

应届毕业生‌： 无工作经验但想要系统学习AI大模型技术，期待通过实战项目掌握核心技术。

零基础转型‌： 非技术背景但关注AI应用场景，计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能突破瓶颈： 传统开发者（Java/前端等）学习Transformer架构与LangChain框架，向AI全栈工程师转型‌。

vx扫描下方二维码即可
在这里插入图片描述

本教程比较珍贵，仅限大家自行学习，不要传播！更严禁商用！

03 入门到进阶学习路线图

大模型学习路线图，整体分为5个大的阶段：

04 视频和书籍PDF合集

从0到掌握主流大模型技术视频教程（涵盖模型训练、微调、RAG、LangChain、Agent开发等实战方向）

新手必备的大模型学习PDF书单来了！全是硬核知识，帮你少走弯路（不吹牛，真有用）

05 行业报告+白皮书合集

收集70+报告与白皮书，了解行业最新动态！

06 90+份面试题/经验

AI大模型岗位面试经验总结（谁学技术不是为了赚$呢，找个好的岗位很重要）
在这里插入图片描述

07 deepseek部署包+技巧大全

在这里插入图片描述

由于篇幅有限

只展示部分资料

并且还在持续更新中…

真诚无偿分享！！！
vx扫描下方二维码即可
加上后会一个个给大家发
在这里插入图片描述

北京朝阳AI社区

更多推荐

AI大模型零基础教程（非常详细），大模型入门到精通，非常详细建议收藏！

北京朝阳AI社区

MCP交互大模型详解：从tools字段到提示词工程，一篇搞定【必学收藏】

北京朝阳AI社区

【深度收藏】MCP技术入门：AI大模型的“USB-C接口“，扩展能力边界

北京朝阳AI社区

所有评论(0)

查看更多评论

和老莫一起学AI

@2401_85373691

已为社区贡献81条内容