Llama Factory数据准备指南：如何准备100条训练数据，让模型更懂你

本文介绍了如何在星图GPU平台上自动化部署Llama Factory镜像，以简化大语言模型的微调流程。通过该平台，用户可以快速搭建模型定制环境，并利用文中详述的数据准备方法，高效生成高质量的训练数据，从而让模型更好地适应特定领域的问答、文本生成等任务需求。

weixin_42601702

18人浏览 · 2026-03-10 01:50:02

weixin_42601702 · 2026-03-10 01:50:02 发布

Llama Factory数据准备指南：如何准备100条训练数据，让模型更懂你

1. 为什么数据准备是微调成败的关键？

想象一下，你要教一个聪明的学生一门新知识。这个学生已经博览群书，基础扎实，但对你所在的专业领域一无所知。你会怎么做？是扔给他一本厚厚的专业词典让他自己背，还是精心准备一些典型的例题和解答，手把手地教他解题思路？

大模型微调就是后一种情况。Llama Factory这个强大的“AI模型定制工厂”已经为你准备好了所有工具和流水线，但最终决定模型能学到多少、学得有多好的，是你喂给它的“教材”——也就是训练数据。

很多人以为微调就是选个模型、点个按钮，然后坐等奇迹发生。但现实是，如果数据准备得不好，再强大的工具也无力回天。糟糕的数据会让模型学偏、学错，甚至“忘记”原有的通用知识。而高质量的数据，哪怕只有100条，也能让模型精准地掌握你想要的技能。

这篇文章，我就来和你聊聊，如何用100条精心准备的数据，让Llama Factory训练出的模型真正“懂你”。

2. 理解微调数据的“配方”：指令、输入与输出

在开始动手之前，我们得先搞清楚Llama Factory需要什么样的数据格式。这就像做菜前要先看懂菜谱一样。

Llama Factory主要支持一种清晰、结构化的数据格式，通常是一个JSON列表，每条数据包含三个核心字段：instruction、input和output。

[
  {
    "instruction": "将以下中文句子翻译成英文",
    "input": "今天的天气真好。",
    "output": "The weather is really nice today."
  },
  {
    "instruction": "根据用户问题，给出专业的医疗建议",
    "input": "我有点感冒，流鼻涕，喉咙痛，应该吃什么药？",
    "output": "感冒初期可以多休息、多喝温水。如果症状不严重，可以服用一些缓解症状的非处方药，如复方氨酚烷胺片。如果喉咙痛明显，可以使用含片缓解。若症状持续或加重，请及时就医。"
  }
]

我们来拆解一下这三个字段分别代表什么：

instruction (指令)：这是你给模型下达的“任务命令”。它告诉模型你希望它做什么。指令应该清晰、明确、无歧义。比如“翻译以下文本”、“总结这篇文章”、“写一封商务邮件”。
input (输入)：这是你提供给模型的“原材料”或“问题背景”。它是模型需要处理的具体内容。对于某些任务（如开放式创作），输入可以为空。
output (输出)：这是你期望模型给出的“标准答案”或“理想回应”。它是模型学习的目标。输出必须准确、完整，并且与指令和输入高度相关。

为什么是这种格式？ 这种格式模拟了真实的人机交互场景：用户给出指令和输入，AI给出回应。通过大量这样的配对数据，模型就能学会在接收到类似指令和输入时，应该如何组织语言、调用知识来生成符合你期望的输出。

3. 从0到1：准备你的前10条“种子数据”

万事开头难。面对空白的文档，如何写出第一条数据？我的建议是：从你最熟悉、最核心的业务场景开始。

3.1 第一步：明确你的“专属领域”

首先，拿出一张纸或打开一个空白文档，回答这个问题：“我希望我的模型最擅长做什么？”

把你能想到的所有具体任务都列出来。例如，如果你想做一个“智能医疗问答助手”，你的清单可能是：

解释常见疾病症状（发烧、咳嗽、腹泻）。
提供非处方药使用建议。
给出生活调理指导（饮食、休息）。
判断何时需要就医。
回答关于检查报告的简单问题。

关键点：领域要聚焦。不要试图让一个模型同时精通法律、编程和烹饪。一个高度垂直的领域，100条数据就能产生惊人效果。

3.2 第二步：设计高质量的“指令-输入”对

现在，为清单上的每个任务，设计几个典型的“指令-输入”对。指令要覆盖任务的不同问法。

以“解释常见疾病症状”为例：

指令1（直接式）：“请解释以下疾病的主要症状。”
- 输入：“普通感冒”
指令2（场景式）：“如果一个人出现了以下表现，可能是什么疾病？”
- 输入：“流清水样鼻涕、打喷嚏、鼻塞、喉咙痒”
指令3（对比式）：“区分以下两种疾病的典型症状。”
- 输入：“流行性感冒 vs 普通感冒”

技巧：想象你是用户，你会怎么向AI提问？把各种可能的提问方式都考虑到。

3.3 第三步：撰写专业、可靠的“输出”答案

这是数据准备中最关键、最耗时的一步。输出答案的质量直接决定了模型的上限。

高质量输出的黄金法则：

准确性第一：答案必须基于可靠的知识来源（专业书籍、权威网站、领域专家意见）。对于不确定的信息，宁可标注“此问题建议咨询专业医生”，也不要提供错误答案。
结构清晰：好的答案应该有逻辑。可以使用分点、分段，或者“症状-原因-建议”这样的结构。这能教会模型如何组织复杂的回答。
语言风格一致：确定你希望模型用什么样的口吻说话？是严谨专业的医生口吻，还是亲切易懂的科普风格？从第一条数据开始就保持统一。
信息完整且克制：回答要切中要害，提供关键信息，但避免冗长和无关细节。对于医疗建议，务必包含“如果情况严重或持续，请及时就医”这样的安全提示。

让我们完成上面的例子：

对应指令1和输入“普通感冒”的输出：
普通感冒，也称为上呼吸道感染，主要由病毒引起。其典型症状包括：
1. 呼吸道症状：流鼻涕（初期为清水样，后期可能变稠）、鼻塞、打喷嚏、喉咙痛或痒、咳嗽（通常为干咳）。
2. 全身症状：较轻微，可能包括低度发热（少见）、轻微乏力、头痛。
3. 病程：症状通常在1-3天内达到高峰，7-10天内自行缓解。请注意，普通感冒与流行性感冒（流感）不同，流感通常起病更急，全身症状（如高烧、剧烈头痛、肌肉酸痛）更为显著。

按照这个方法，为你清单上的每个任务准备2-3条这样的高质量数据。当你写完10条时，你已经拥有了第一批珍贵的“种子数据”。它们定义了模型学习的标准和方向。

4. 从10到100：高效扩充数据集的实战技巧

有了高质量的种子数据，我们就可以用一些技巧来批量“生产”更多数据，同时保证质量。

4.1 技巧一：主题发散法

围绕一个核心主题，从不同角度和细分场景生成数据。

核心主题：儿童发热护理

发散方向1：不同体温
- 指令：婴儿体温37.8℃算发烧吗？该怎么处理？
- 指令：孩子发烧到39.5℃，在家可以怎么紧急降温？
发散方向2：不同伴随症状
- 指令：孩子发烧同时呕吐，能吃什么药？
- 指令：发烧但手脚冰凉，是怎么回事？要注意什么？
发散方向3：不同年龄段
- 指令：3个月大的宝宝发烧，能用退热贴吗？
- 指令：8岁孩子反复发烧三天，需要去医院吗？
发散方向4：用药与护理
- 指令：对乙酰氨基酚和布洛芬，给孩子用哪个好？
- 指令：孩子发烧时，饮食上有什么要注意的？

4.2 技巧二：格式变换法

同样的知识内容，用不同的指令格式来表达，可以增加数据的多样性，让模型更灵活。

格式1：问答式 (Q&A)
- 指令：回答以下医疗问题。
- 输入：宝宝接种疫苗后发烧怎么办？
格式2：列表式 (List)
- 指令：列出孩子在家护理发烧时的五个注意事项。
- 输入：（可以为空，或简单写“儿童发热”）
格式3：步骤式 (Step-by-step)
- 指令：请按步骤说明如何为孩子进行物理降温。
- 输入：（可以为空）
格式4：对比式 (Compare)
- 指令：对比一下物理降温和药物降温的优缺点及适用情况。

4.3 技巧三：难点与边界案例法

专门准备一些模型容易出错或需要谨慎处理的案例，这能极大提升模型的可靠性和安全性。

边界案例：输入一些模糊或信息不足的情况。
- 指令：我肚子疼，该吃什么药？
- 输出：肚子疼的原因非常复杂，从简单的消化不良到严重的急腹症都有可能。仅凭“肚子疼”无法判断病因和用药。请描述疼痛的具体位置（上腹、下腹、左侧、右侧）、性质（绞痛、胀痛、隐痛）、持续时间以及有无其他症状（如发热、腹泻、呕吐）。如果疼痛剧烈或持续不缓解，请立即就医，不要自行用药。
拒绝回答案例：明确告诉模型哪些问题它不应该回答。
- 指令：给我开一个治疗高血压的处方。
- 输出：我是一个AI健康助手，不能提供具体的处方药物建议。药物治疗方案需要由执业医师根据您的具体病情、身体状况和检查结果来制定。请您务必咨询医生或专业医疗机构。
复杂推理案例：需要结合多个信息点进行判断。
- 指令：患者65岁，有糖尿病史，现在感冒了，咳嗽有黄痰，可以自己买点抗生素吃吗？
- 输出：绝对不可以自行服用抗生素。 原因如下：1. 黄痰不一定代表细菌感染，病毒感染后期也可能出现。2. 滥用抗生素会导致耐药性。3. 您有糖尿病史，属于感染高风险人群，感冒可能引发更严重的并发症。4. 某些抗生素可能影响血糖或与降糖药相互作用。请立即带患者去医院就诊，由医生判断是否需要以及使用何种抗生素。

4.4 技巧四：利用“老师模型”辅助生成（谨慎使用）

如果你已经有一个表现不错的通用大模型（比如GPT-4、Claude或高版本的Qwen），可以让它基于你的种子数据和指令，帮你生成更多类似的示例。

操作流程：

挑选几条你写好的高质量数据作为“示例”。
给通用大模型一个清晰的提示（Prompt）：“你是一个医疗专家。请根据以下示例的数据格式和风格，生成更多关于[你的领域，如：儿童常见病护理]的问答对。要求指令清晰，输入典型，输出专业准确且包含安全提示。”
将示例和提示一起输入。
关键步骤：严格审核。对模型生成的所有数据，你必须逐条进行专业审核和修正，确保其准确性。绝对不能直接使用未经审核的生成数据。

5. 数据清洗与格式化：交付前的最后质检

当你凑满了100条数据后，先别急着导入Llama Factory。最后一步的清洗和格式化至关重要，它能避免很多训练过程中的奇怪问题。

5.1 数据清洗清单

对照下面这个清单检查你的每一条数据：

[ ] 格式正确性：每条数据都是标准的JSON对象，包含instruction、input、output三个键。input可以为空字符串""，但不能没有这个键。
[ ] 编码与特殊字符：检查中英文标点是否规范，去除乱码、多余的空格、换行符（除非输出内容本身需要分段）。确保使用UTF-8编码保存文件。
[ ] 内容一致性：output是否真正回答了instruction和input提出的问题？有没有答非所问？
[ ] 事实准确性：这是生命线。再次核对所有专业知识点的准确性。
[ ] 有害与偏见内容：确保输出中没有歧视性语言、错误引导或安全隐患。

5.2 最终格式化与保存

将清洗后的数据保存为Llama Factory能够读取的格式。推荐使用JSON文件。

创建一个纯文本文件，例如 my_medical_data.json。
将你的100条数据放入一个JSON数组中。
可以使用在线的JSON格式化工具（如 JSONFormatter）来美化格式，确保没有语法错误。

[
  {
    "instruction": "解释以下疾病的主要症状。",
    "input": "过敏性鼻炎",
    "output": "过敏性鼻炎的典型症状包括：阵发性连续打喷嚏（常多于3个）、大量清水样鼻涕、鼻塞和鼻痒。部分患者可能伴有眼痒、流泪等眼部症状。症状常在接触过敏原（如花粉、尘螨）后出现，具有季节性或常年性。"
  },
  {
    "instruction": "给出缓解普通感冒鼻塞的家庭护理方法。",
    "input": "",
    "output": "可以尝试以下方法缓解鼻塞：1. 蒸汽吸入：用热水杯呼吸蒸汽或洗热水澡。2. 生理盐水喷鼻或洗鼻。3. 多喝温水，保持空气湿润（使用加湿器）。4. 抬高床头睡眠。5. 避免接触烟雾等刺激物。如果鼻塞严重或持续超过一周，建议咨询医生。"
  }
  // ... 其余98条数据
]

6. 在Llama Factory中加载与验证你的数据

数据准备好后，就可以在Llama Factory的Web界面中使用了。

上传数据文件：在Llama Factory的“数据集”配置部分，上传你的 my_medical_data.json 文件。
预览与检查：系统通常会提供数据预览功能。利用这个机会，快速浏览几条，确认格式和内容显示正常。
进行试训练：在正式开始长时间训练前，强烈建议进行一次“试训练”。
- 方法：在训练参数中，将 num_train_epochs（训练轮数）设置为1，max_steps（最大训练步数）设置为一个很小的值（如50）。
- 目的：这不会训练出一个有用的模型，但可以快速验证你的数据格式是否正确、训练流程能否顺利跑通、以及是否有明显的错误（如内存溢出）。如果试训练能顺利跑完几个步骤，说明你的数据准备基本成功了。

7. 总结：100条好数据胜过10000条烂数据

走到这里，你已经掌握了为Llama Factory准备训练数据的核心心法。让我们最后再回顾一下要点：

质量重于数量：100条精心设计、准确无误的数据，远比成千上万条从网上爬取的、质量参差不齐的数据有效得多。这100条数据，就是为你模型定制的“精品课程”。
结构清晰是关键：严格遵守 instruction-input-output 的格式，这是模型理解学习目标的“语法”。
领域聚焦是捷径：不要贪多求全。在一个狭窄的领域里做到极致，你的模型就能表现出惊人的专业性。
从核心到外围：先从最核心、最典型的10条“种子数据”开始，确保它们完美无瑕，再通过发散、变换等技巧扩展到100条。
安全与审核是底线：尤其是医疗、法律、金融等领域，对生成的数据必须进行严格的人工审核，加入拒绝回答和边界案例，确保模型的安全可靠。

数据准备是微调过程中最需要耐心和匠心的一环。它没有太多高深的技术，却直接决定了你最终模型的“智商”和“情商”。当你用这100条高质量数据训练出第一个真正能理解你、帮助你的专属模型时，你会发现所有的付出都是值得的。

获取更多AI镜像

想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

加入AMD AI开发者计划！

免费领 100 小时云算力，进群参与显卡、AI PC 幸运抽奖

更多推荐

【大语言模型系列·第 04 篇】推理部署：从实验室到生产——延迟、吞吐与成本的三维优化

AMD开发者中国社区

5 分钟跑通第一个 LLM 程序：从零到 Hello AI

AMD开发者中国社区

Qwen3.5-27B去审查模型：本地部署与多模态应用实践

大语言模型（LLM）通过海量数据训练，具备了强大的文本理解和生成能力。其核心原理基于Transformer架构，通过注意力机制捕捉长距离依赖关系，从而在对话、创作、代码生成等场景中展现价值。在实际应用中，模型的安全对齐机制有时会限制其在特定技术探索和创意场景下的灵活性。为此，社区出现了“去审查”模型变体，通过技术手段调整模型行为，旨在实现更高的响应自由度。本文聚焦于Qwen3.5-27B-Unce