大模型安全防线构建：预训练数据过滤技术实现33%有害性降低！

我们尝试从模型的预训练数据中移除有关化学、生物、放射性和核武器（CBRN）的有害信息。我们使用分类器识别有害内容，并在过滤后的数据集上从头开始预训练模型。这种方法使模型在有害性评估指标中相对于随机基线降低了33%，同时保留了其有益能力。

python零基础入门小白

417人浏览 · 2025-09-29 15:43:32

python零基础入门小白 · 2025-09-29 15:43:32 发布

摘要: 我们尝试从模型的预训练数据中移除有关化学、生物、放射性和核武器（CBRN）的有害信息。我们使用分类器识别有害内容，并在过滤后的数据集上从头开始预训练模型。这种方法使模型在有害性评估指标中相对于随机基线降低了33%，同时保留了其有益能力。

引言

基于互联网规模数据训练的 AI 系统可以为用户提供涵盖极其广泛主题的综合知识。然而，这些丰富的信息中也包含敏感内容，如果被滥用可能带来危险。例如，与化学、生物、放射性和核武器（CBRN）相关的信息，如果落入不当之手，可能使具备基础技术背景的恶意行为者有能力开发大规模杀伤性武器。我们的“负责任扩展政策”（Responsible Scaling Policy, RSP）承诺我们将减轻此类威胁模型的风险，并限制我们的模型传播有害信息。

在模型预训练过程中学习了有害信息后，使用后处理方法（如遗忘方法）移除这些信息可能具有挑战性（Deeb 等人，2024；Łucki 等人，2024）。现有方法往往难以在不损害其他能力的情况下完全清除有害内容。在本文中，我们通过预训练数据过滤从源头上解决这一风险。我们使用分类器识别并移除预训练数据中潜在的有害信息，然后在过滤后的数据集上从头开始预训练模型。

通过过滤特定数据，我们能够在不降低模型其他能力的情况下减少其有害知识。在中等规模模型上，我们将有害性评估指标相对于随机基线降低了33%，而在MMLU、代码和散文等标准基准测试中没有显著下降。

设置

预训练数据过滤的目标是最大化有害性评估指标的下降，同时最小化无害性评估指标的下降。为此，我们自动评估模型预训练数据集中每个文档的危害性，并移除那些超过特定阈值的文档。通过调整这一阈值，我们实现了安全性和实用性之间的不同权衡，从而根据我们的具体要求调整模型性能。需要注意的是，某些信息可能具有双重用途。例如，关于通用科学能力的信息可能使恶意用户能够执行有害任务，但也可能使合法用户受益以执行正当任务。因此，如何进行针对有害信息的定向数据干预仍是一个开放性问题。

图1：预训练数据过滤流程。我们使用分类器自动评估模型预训练数据集中每个文档的危害性，并移除那些超过特定阈值的文档。然后，我们在仅包含无害内容（由分类器确定）的过滤后数据集上从头开始预训练模型。

分类器

有害数据过滤的关键是一个危害性评分器，我们将其设定为一个二元分类问题（有害 vs. 无害）。

一个好的分类器应具备以下特点：

准确性：确保过滤结果能够降低危害性，同时仅对实用性造成最小的影响；
高效性：由于预训练语料库的规模庞大，分类器需要能够高效处理。

方法

我们实验了6种分类方法来检测CBRN内容。我们首先描述这些方法，然后讨论每种方法使用的骨干模型。

宪法式微调分类器（Finetuned Constitutional classifier）：我们在标记为有害与无害的数据上微调了一个语言模型（LM）。更多细节请参见 Sharma 等人，2025，特别是附录 B 中的宪法示例。
提示式宪法分类器（Prompted Constitutional classifier）：我们通过提示一个语言模型来标记违反我们 CBRN 宪法的内容。我们还测试了第二个版本，其宪法聚焦于 CBRN 的不同方面，称为提示式宪法分类器 v2。
隔离损失（Holdout Loss）（Mindermann 等人，2022）：我们构建了一个专门针对有害 CBRN 内容的“金丝雀模型”(canary model)，然后如果金丝雀模型在某文档上的困惑度显著低于基础模型，则将该文档标记为有害。在金丝雀模型下困惑度低的文档很可能包含有害 CBRN 内容，因为该模型在有害 CBRN 数据上训练，自然在类似内容上损失较低。我们通过以下两种方式构建了有害语言模型：

1）微调：我们在有害文档上以语言建模损失微调基础模型。

2）提示：我们使用有害文档作为上下文示例，提示一个仅限帮助的模型。
FastText：我们在标记为有害与无害的数据上训练了具有可学习嵌入的二元词袋分类器（Joulin 等人，2016）。
命名实体字符串匹配（Named Entities String Match）：我们编制了一份需要格外谨慎的有害 CBRN 命名实体列表。我们使用字符串匹配，并以文档中有害命名实体的密度来衡量其危害性。

骨干模型：我们的宪法式微调分类器使用了一个小型模型（远小于 Claude 3.5 Haiku）。提示式宪法分类器、提示 CBRN 分类器和隔离损失分类器均使用 Claude 3.5 Sonnet，成本远高于小型模型。FastText 比小型模型便宜几个数量级，而命名实体字符串匹配是成本最低的。

这份完整版的大模型 AI 学习和面试资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
在这里插入图片描述

分类器评估

为了评估我们的分类器，我们需要标记为有害和无害的文档。由于没有可用的标记数据，我们通过提示大语言模型（LLMs）生成合成的标记文档。具体来说，我们通过提示 Claude 3.5 Sonnet 回答 MMLU 数据集（Hendrycks 等人，2020）中的无害自然科学（化学和生物学）问题来生成合成无害文档，并通过提示仅限帮助的 Claude 3.5 Sonnet 回答 WMDP 数据集（Li 等人，2024）中的有害 CBRN 问题来生成合成有害文档。我们在合成数据集上测量了所有分类器的 F1 分数，除了命名实体分类器，因为它仅设计用于捕获特定危害的子集。

图2：我们构建的各种分类器的F1分数。基于Claude 3.5 Sonnet的提示式宪法分类器表现最佳，其次是基于小型模型的宪法式微调分类器。

基于Claude 3.5 Sonnet的提示式宪法分类器的F1分数为0.96，表现最佳，其次是基于小型模型的宪法式微调分类器（F1分数为0.94）。然而，Claude 3.5 Sonnet的计算成本过高，无法扫描整个预训练语料库。因此，我们使用计算成本低得多的小型宪法式微调分类器来扫描整个预训练语料库，并在此基础上实验了另外两个变体：

宪法式微调 + 提示式宪法（顺序）：我们首先使用成本较低的微调分类器标记出1%最具危害性的文档，然后使用成本较高但更精确的提示分类器进行重新排序。这种两步分类器仅标记了预训练数据中的一小部分，因为大多数最初被微调分类器识别为有害的文档在提示分类器的后续评分中获得了低危害分数。
宪法式微调+ 命名实体（并行）：我们分别使用微调分类器和命名实体分类器标记最具危害性的文档，然后合并被标记的文档。

我们还对被标记为有害的数据样本进行了人工审查，发现它们确实与我们试图移除的有害 CBRN 信息相符。

预训练实验

为了评估数据过滤的效果，我们从头开始预训练了多对模型进行比较：每对模型中，一个模型在包含有害和无害内容的未过滤数据集上训练，另一个模型在仅包含无害内容（由分类器确定）的过滤数据集上训练。

为了确保公平比较，我们通过从更大的初始数据池中构建过滤数据集，保证过滤和未过滤数据集具有相同数量的样本。我们通过比较成对模型在一组能力评估上的性能差异来衡量数据过滤的影响。

评估数据与指标

为了评估我们的方法，我们测量了有害性和无害性的指标变化。我们使用WMDP数据集的多项选择题评估有害性。对于无害性，我们首先在MMLU数据集的自然科学（化学和生物学）问题上进行评估，这些问题是与有害CBRN内容较为相关的无害性指标，因此较容易受到过于严格的数据过滤的影响。我们还评估了多种相关性较低的无害性指标，包括散文、代码、数学和MMLU，以确保数据过滤不会对实用性产生意外的副作用。

我们对散文和代码任务测量了困惑度（perplexity），对多项选择题（WMDP、MMLU）测量了top-1少样本（few-shot）准确率。所有结果均以相对于无过滤的性能分数报告。对于多项选择题，我们使用相对于随机基线的准确率计算相对分数：

分数越高表示保留的能力越多。对于散文和代码评估，我们计算了过滤后困惑度与无过滤困惑度的比率。由于较低的困惑度表示更高的能力，我们通过取负值并加2转换该比率，即

经过这一转换，两个指标的方向性一致：分数越高表示保留的能力越多，分数为1表示数据过滤未导致能力变化。

一个有效的数据过滤过程应使有害性的指标相对分数显著低于1，而无害性的指标相对分数接近1。我们的数据过滤方法通过设置不同的过滤阈值，允许我们在安全性和各种实用性之间实现不同的权衡。

结果

我们首先比较了三种数据过滤器（单独的宪法式微调分类器、宪法式微调 + 提示式宪法分类器、宪法式微调 + 命名实体分类器）的性能，然后展示了表现最佳的过滤器的完整结果。为简单起见，以下我们使用“微调”指代宪法式微调分类器，“提示”指代提示式宪法分类器。

在结果图中，我们将展示CBRN相关能力的相对性能（分数越低越好）与各种有用能力的相对性能（分数越高越好）之间的关系。每条曲线上的不同点对应不同的过滤阈值，使我们能够在安全性和能力之间进行权衡。

不同过滤器的比较

在实验中，我们观察到过于激进的CBRN数据过滤主要影响自然科学（化学和生物学）的性能，因此我们在比较不同过滤器时，重点关注CBRN与自然科学之间的权衡。

图3：不同数据过滤器在有害CBRN和无害自然科学上的性能（相对于无数据过滤）。微调分类器（Finetuned）与微调+命名实体（Finetuned + Named Entities）的性能相当，两种过滤器均优于微调+提示（Finetuned + Prompted）。分数大于1表示数据过滤提升了评估性能。

与仅使用微调分类器（蓝色）相比，添加命名实体进行并行标记（橙色）并未持续改善安全性和实用性的权衡。这可能表明我们的微调分类器已经捕获了包含有害命名实体的大部分有害内容。

不幸的是，使用微调+提示两步分类器（灰色）进行过滤不仅未能降低CBRN性能，反而略有增加。这有些令人意外，因为我们的分类器评估结果显示提示分类器的表现最佳。这种差异可能源于实际预训练文档与用于分类器评估的合成文档之间的分布偏移。提示分类器在此处表现不佳可能表明，危害的定义在某些方面较为微妙，通过简单提示难以准确指定，而微调分类器则有机会从标记示例中学习。

基于上述结果，我们选择了单独的宪法式微调分类器作为我们的数据过滤解决方案。

最佳过滤器的完整结果

我们现在展示所选过滤器的完整结果。每个图表显示了安全性（CBRN，值越低越好）与我们关注的特定实用性指标（散文、代码、MMLU、自然科学、数学，值越高越好）之间的权衡。两个轴均显示数据过滤后相对于无数据过滤的性能分数，x轴为实用性，y轴为安全性。结果显示，数据过滤在 5 项无害性指标评估中的 4 项并未损害模型的有用性，唯一的例外是数学（Math），其结果更具噪声（即在某些阈值下过滤会降低性能，而在另一些阈值下则会提升性能）。总体而言，我们的结果表明：我们可以有效区分有害数据与无害数据，并通过预训练数据过滤提升模型的安全性，而不会严重损害其实用性。

图4：我们选定的数据过滤器在有害CBRN和各种无害实用能力上的性能（相对于无数据过滤）。通过选择不同的过滤阈值，我们实现了不同的安全性和实用性权衡。

我们可以根据特定用例选择安全性和能力之间的权衡。在一个过滤阈值（0.939）下，我们的数据过滤将有害CBRN评估指标的相对分数降低了 33%（从33.7±0.4%降低到30.8±0.4%，其中33%的降低是基于该方法相对于25%随机基线的表现计算得出的），同时在我们使用的所有无害性评估指标中没有显著下降。

图5：我们选定阈值下数据过滤相对于无数据过滤的性能变化。我们的最终数据过滤将CBRN的评估指标的相对分数降低了33%，同时在任何无害性评估指标中均未导致显著下降。

这些结果共同表明，我们可以有效地将有害数据与无害数据分开，并通过预训练数据过滤来提高模型安全性，而不损害其实用性。

AI大模型学习和面试资源

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段： 从大模型系统设计入手，讲解大模型的主要方法；

第二阶段： 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段： 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段： 大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段： 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段： 以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段： 以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

在这里插入图片描述

👉学会后的收获：👈

• 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求：大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能，学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力：大模型应用开发需要掌握机器学习算法、深度学习框架等技术，这些技术的掌握可以提高程序员的编码能力和分析能力，让程序员更加熟练地编写高质量的代码。

在这里插入图片描述

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式：
😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

在这里插入图片描述

北京朝阳AI社区

更多推荐

大模型RAG提示词工程：打造高效大模型应用的完整指南

北京朝阳AI社区

EdgeMark：嵌入式人工智能工具的自动化与基准测试系统

图3显示部署误差，可以看到动态量化在某些模型上产生了高达0.7的MAE误差，而其他量化方案的误差都在0.01以下。图4的执行时间对比显示，对于CNN模型，使用CMSIS-NN优化的int8量化比基础版本快约10倍。EON编译器的工作原理是将TensorFlow Lite模型直接转换为C++代码，生成的代码包含了所有必要的张量操作和内存管理逻辑。例如，ARM提供的CMSIS-NN库为Cortex-M

北京朝阳AI社区

mcp-server案例分享

上图中我们输入需要调用的工具名称，提示词以及需要调用文生视频mcp-server apikey后后端模型通过意图识别判断调用了这个文生视频的mcp-server从而实现了调用即梦AI 创建一个文生视频。MCP Server 提供了标准化的通信协议，支持两种传输协议（STDIO和SSE），并允许开发者通过插件扩展功能，使其具备灵活性和扩展性。MCP Server 能够管理客户端与服务器的连接，确