社区供稿 | 如何让大模型输出 10k+ 字长文？

我们从 GLM-4 的 SFT 数据中筛选出了 3,000 条指令（主要是中文），另外从 WildChat-1M（一个包含用户与 ChatGPT/GPT-4 对话记录的公开日志）中选择了 3,000 条指令（主要是英文），通过 AgentWrite 并利用 GPT-4o 生成了 6,000 条长输出的 SFT 数据，即 LongWriter-6k。当输出长度符合要求时，得分为 100；我们相信，在

asagafas

387人浏览 · 2025-10-04 22:45:57

asagafas · 2025-10-04 22:45:57 发布

上，对 GLM-4-9B 进行 SFT 微调和 DPO 对齐。新的模型拥有了能够生成超过 10,000 字 / 词连贯文本的能力。

下面是我们用 LongWriter-9B 模型，以「黑神话・悟空」为题撰写的玄幻小说。

> prompt: 请帮我撰写一个主题为「黑神话・悟空」玄幻小说，小说以孙悟空为核心，讲述一个桀骜不驯，打怪升级，追逐梦想的玄幻故事，不少于 10000 字

完整视频可查看：https://mp.weixin.qq.com/s/mhhUWDP6fp9sTWNH9GeZnA

论文：https://arxiv.org/abs/2408.07055

代码：https://github.com/THUDM/LongWriter

模型：

Hugging Face：https://hf.co/THUDM/LongWriter-glm4-9b

魔搭：https://modelscope.cn/models/ZhipuAI/LongWriter-glm4-9b

数据：

Hugging Face：https://hf.co/datasets/THUDM/LongWriter-6k

魔搭：https://modelscope.cn/datasets/ZhipuAI/LongWriter-6k

生成长度限制的根源

我们对当前最先进的长上下文模型的最大输出长度做了测试，这些测试会明确要求模型生成不同长度的内容，例如：撰写一篇关于罗马帝国历史的 10000 字文章。

从上图可以看出，所有模型生成的内容，几乎都不超过 2000 字。

原因是什么呢？

我们做了一个初步的研究，用不同最大输出长度的数据对 GLM-4-9B-base 模型进行 SFT 微调。结果如下：

伴随着要求长度的增加，不同数据集 SFT 微调出来的模型，存在最大输出长度限制。

因此可以得出一个结论，尽管长文本模型在预训练阶段接触了更长的文本序列，但其最大生成长度实际上被 SFT 数据集中输出长度的上限所限制。换句话说，模型 “读” 到的内容决定了它能 “写” 多长。

这一发现可以解释当前模型普遍存在的 2000 字输出限制 —— 因为现有的 SFT 数据集很少包含超过此长度的样例；而另一方面，很多数据集都是用现有 LLM 自动构建的，因此它们也继承了源模型的输出长度限制。

自动构建长输出数据集

为了解决 SFT 数据集中长输出文本数据缺失的问题，我们设计了一个名为「AgentWrite」的 pipeline，通过分解长生成任务，让现有模型来生成更长的具备连贯性的输出。

具体来说，AgentWrite

首先，会根据用户的输入生成一个详细的写作计划，包括每段内容的结构和目标字数
其次，模型依次完成每个子任务，并将生成的段落串联起来，最终形成完整的长文本输出。

通过这种方法，AgentWrite 能够生成超过 20,000 字的高质量文本。

教模型生成超长输出

有了一个利用 LLMs 自动生成的更长输出的数据集，我们不禁好奇：是否可以将这种生成超长输出的能力传授给 LLMs，使它们能够在单次输出中完成长篇写作任务？

在模型训练中，为了确保模型的通用能力，我们将 LongWriter-6k 与通用 SFT 数据（180k 条数据）结合，形成整个训练集。输出长度分布如下：

可以看到 LongWriter-6k 有效地补充了通用 SFT 数据中 2,000 字以上输出样例的不足，并且 LongWriter-6k 中的输出长度在 2,000 至 10,000 词之间分布相对均匀。

微调（SFT）：我们分别针对 GLM-4-9B 和 Llama-3.1-8B 做了 SFT 微调，这两个模型都是基础模型，支持最多 128k tokens 的上下文窗口，非常适合用于长输出的训练。我们得到两个模型：LongWriter-9B（GLM-4-9B-LongWriter 的缩写）和 LongWriter-8B（Llama-3.1-8B-LongWriter 的缩写）。

对齐（DPO）： 为了进一步提高模型的输出质量，并增强其在指令中遵循长度约束的能力，我们在经过 SFT 微调的 LongWriter-9B 模型上进行了直接偏好优化。DPO 数据来自 GLM-4 的 DPO 数据（大约 50,000 条），同时包含 4k 条我们标注的长输出正负样本对。

结果怎么样？

我们在 LongBench-Write 上对 4 个专有模型和 5 个开源模型进行了评测，如下表所示：

其中 S_l 表示输出长度是否符合要求的得分。当输出长度符合要求时，得分为 100；当输出长度超过要求的 4 倍或低于要求的 1/3 时，得分会线性下降至 0。

S_q 则是从相关性、准确性、连贯性、清晰度、广度与深度以及阅读体验等六个维度，用 GPT-4o 进行的打分，并取平均，代表了生成内容的质量。

最终得分 \overline {S} 通过 S_l 和 S_q 的平均值计算得出。

1. 大多数当前的模型都无法满足超过 2,000 字的长度要求，而 LongWriter 模型在此类提示下始终提供更长且更丰富的响应。

更具体来说，在 [2k, 4k) 范围内当前的模型通常表现不佳，只有 Claude 3.5 Sonnet 得分尚可；而在 [4k, 20k) 范围里，几乎所有当前的模型都完全无法达到目标输出长度，甚至得分为 0（意味着所有输出长度均小于要求长度的 1/3）。

2. DPO（直接偏好优化）有效提升了模型的输出质量及其在长文本生成中遵循长度要求的能力。

通过比较 LongWriter-9B 和 LongWriter-9B-DPO 的得分，我们发现 DPO 显著提高了 S_l（+4%）和 S_q（+3%）的得分，并且这种提升在所有范围内都保持一致。这表明在长文本生成场景中，DPO 依然能够帮助提升模型的输出质量，并能更好地使模型的输出长度与要求的长度对齐。

3. LongWriter 模型的输出长度限制大概 10k 至 20k 字之间，如果想让模型拥有更长输出的能力，则需要更长输出的数据集。

在混合后的 SFT 数据集中可以看到，大部分数据都在 20k 以下，超出 20k 的数据不到 100 条。

我们相信，在未来构建更长的 SFT 训练数据，可以进一步突破模型输出长度的限制，达到 100k 甚至更长的输出长度。

本文由 Hugging Face 中文社区内容共建项目提供，稿件由社区成员投稿，经授权发布于 Hugging Face 公众号。文章内容不代表官方立场，文中介绍的产品和服务等均不构成投资建议。了解更多请关注公众号:

如果你有与开源 AI、Hugging Face 相关的技术和实践分享内容，以及最新的开源 AI 项目发布，希望通过我们分享给更多 AI 从业者和开发者们，请通过下面的链接投稿与我们取得联系:

https://hf.link/tougao

北京朝阳AI社区

更多推荐

【Android调用JavaScript方法的实现方式详解】

大模型时代的上下文工程：让AI更懂你-摘要

北京朝阳AI社区

使用Java探索人工智能在医疗诊断中的前沿应用与未来趋势

人工智能技术正以前所未有的速度重塑医疗领域，特别是在诊断辅助方面展现出巨大潜力。作为企业级应用开发的主流语言，Java凭借其稳定性、安全性和强大的生态系统，在构建医疗AI系统中扮演着重要角色。通过Java平台实现的智能诊断系统不仅能够提升医疗服务的效率与精准度，更为未来智慧医疗的发展奠定了坚实基础。Java在医疗人工智能领域的应用展示了技术如何赋能传统行业转型。通过持续的技术创新和严格的质量保证，