狂降75%！大模型DeepSeek-V3.2 API杀疯了：性能零衰减的秘密，藏在DSA这两大“黑科技”里

摘要： DeepSeek-V3.2-Exp大模型通过自研的DSA稀疏注意力机制（含“闪电索引器”和“稀疏MLA”两大核心技术），将长文本处理的计算复杂度从O(L²)降至O(Lk)，实现效率飞跃。其“先筛选后计算”的协同工作流程（投影-评分-选择-计算）在保证性能零衰减的同时，使API调用成本狂降75%，尤其擅长法律、医疗等长文本场景。该技术突破标志着国产大模型在自研创新与商业普惠上的平衡，为行业提

陈敬雷-充电了么-CEO兼CTO

666人浏览 · 2025-10-01 22:18:55

陈敬雷-充电了么-CEO兼CTO · 2025-10-01 22:18:55 发布

注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AI Agent智能体》（跟我一起学人工智能）【陈敬雷编著】【清华大学出版社】

清华《GPT多模态大模型与AI Agent智能体》书籍配套视频课程【陈敬雷】

GPT多模态大模型与AI Agent智能体系列二百零九

狂降75%！大模型DeepSeek-V3.2 API杀疯了：性能零衰减的秘密，藏在DSA这两大“黑科技”里

当国产大模型还在为“小幅性能提升”或“常规版本迭代”绞尽脑汁时，DeepSeek突然扔出一颗“王炸”——9月底发布的实验性模型DeepSeek-V3.2-Exp，不仅首次亮出自研的核心技术“DSA稀疏注意力机制”，更把API调用价格砍到“地板价”：最高降幅达75%。更颠覆认知的是，这场“降价风暴”并非以“牺牲性能”为代价，反而在长文本处理效率上实现“飞跃式提升”。

对开发者、企业用户乃至整个AI行业而言，这不是一次普通的版本更新，而是国产大模型在“技术自研”与“商业普惠”之间找到完美平衡点的标志性事件。新浪财经披露的细节显示，DSA绝非简单的“计算减法”，而是由“闪电索引器”和“稀疏MLA”组成的精密系统，通过“先筛选、后计算”的逻辑，破解了传统大模型“长文本处理成本高、效率低”的行业死结。接下来，我们将从技术原理、工作流程、设计精髓到行业影响，全方位拆解DSA的“魔力”，揭开“降价不降质”的核心密码。

一、反常的“实验版”：为何DeepSeek敢给V3.2-Exp“砍价75%”？

在大模型行业，“实验版”往往意味着“功能待验证”“性能不稳定”，大多以“免费试用”或“小幅优惠”吸引测试用户。但DeepSeek-V3.2-Exp完全打破了这一惯例：作为“迈向新一代架构的中间步骤”，它不仅公开宣称“在评测集上验证有效”，更直接将API价格腰斩再腰斩——据官方信息，部分场景下价格降幅高达75%，几乎回到2023年大模型“价格战”初期的水平。

这种“反常操作”的底气，完全来自DSA（DeepSeek Sparse Attention）的技术突破。在此之前，传统大模型采用的“密集注意力机制”存在致命缺陷：处理文本时，每个Token（文本基本单位）都要与所有其他Token计算关联，导致计算量随文本长度呈“平方级增长”（复杂度O(L²)）。比如处理10万字的合同文本，计算量会是处理1万字文本的100倍，不仅耗时久，硬件成本也高得惊人。

而DSA通过“精准筛选关键信息、只对核心内容计算”的逻辑，将计算复杂度从O(L²)骤降至O(Lk)（k为固定的关键Token数，默认2048）。当文本长度从1万字增至10万字时，DSA的计算量仅增长10倍，而非100倍。这种“效率革命”直接转化为“成本红利”——硬件投入减少、推理速度加快，最终反映在API价格的“断崖式下降”上。

更关键的是，DeepSeek并未将V3.2-Exp定位为“半成品”。官方明确表示，该版本已通过公开评测集验证，性能与上一代旗舰V3.1-Terminus基本持平；但为了确保“覆盖所有真实场景”，仍开放了用户反馈通道（https://feedback.deepseek.com/dsa），邀请开发者在法律、医疗、学术等场景中测试，排除“极端场景下效果欠佳”的可能。这种“技术自信+严谨验证”的态度，让“实验版”反而成为企业用户“敢用、想用”的选择。

二、DSA的两大“核心武器”：一个“筛得快”，一个“算得准”

DSA的设计思想可以概括为“分工协作”：用一个轻量级组件快速筛选关键信息，再用一个重量级组件精准计算核心关联。这两个组件——“闪电索引器（Lightning Indexer）”和“稀疏多潜在注意力（Sparse MLA）”，共同构成了DSA的“技术骨架”，缺一不可。

1. 闪电索引器：128维轻量缓存，做大模型的“速读高手”

如果把DSA比作“处理长文本的工厂”，闪电索引器就是“原料筛选车间”——它的核心任务是“用最少的成本，挑出最有价值的原料”。

传统密集注意力机制之所以低效，是因为没有“筛选环节”，直接对所有Token进行“全量计算”，相当于“把沙子和金子一起放进熔炉”，既浪费能源，又拖慢进度。而闪电索引器的存在，就是“先把金子挑出来”：

轻量缓存，快速扫描：为了追求极致速度，闪电索引器使用“128维的键缓存（Key Cache）”——每个Token仅用128个数值来表征核心特征，远少于稀疏MLA的512维。这种“简化表征”大幅降低了内存占用，让索引器能在极短时间内扫描完整个文本（比如10万字文本仅需毫秒级时间）。
目标明确，只找“关键”：索引器的核心逻辑不是“理解文本含义”，而是“判断关联性”——对当前正在处理的Token（Query），快速计算它与所有历史Token（Key）的关联得分，找出“最相关”的那部分。比如处理医疗病历时，它会自动识别“症状”“用药史”“检查结果”等与当前诊断相关的Token，忽略“患者基本信息重复项”“格式说明”等无关内容。
硬件适配，效率拉满：为了避免“筛选环节成为新瓶颈”，闪电索引器的计算过程运行在DeepSeek自研的“DeepGEMM算子”上。该算子专门针对英伟达Hopper、Blackwell架构GPU做了深度优化，能最大限度发挥硬件算力，确保“筛选速度”跟得上“文本输入速度”。

简单说，闪电索引器的价值在于“用最小的计算成本，排除无效信息”，为后续的精准计算“扫清障碍”。如果没有它，稀疏MLA仍需面对海量Token，效率提升将无从谈起。

2. 稀疏MLA：512维精准计算，做大模型的“精算师”

如果说闪电索引器是“筛选车间”，那么稀疏多潜在注意力（Sparse MLA）就是“核心加工车间”——它不负责“挑原料”，只对“筛选后的金子”进行“精细化加工”，确保输出结果的精度。

稀疏MLA的设计思路与闪电索引器完全相反：前者追求“快”，后者追求“准”；前者用“简化表征”，后者用“完整表征”：

高维缓存，保证精度：稀疏MLA使用“512维的键缓存”，每个Token的特征表征更完整、更细腻。比如描述“高血压”时，128维缓存可能只记录“疾病名称+数值范围”，而512维缓存还能包含“并发症风险”“用药禁忌”“患者年龄关联”等细节。这种“完整表征”是确保注意力计算精准的基础——只有掌握足够多的细节，才能判断Token间的深层关联。
只算核心，拒绝冗余：稀疏MLA不会像传统机制那样“全量计算”，而是只针对闪电索引器选出的“Top-k Token”（默认2048个）进行计算。比如处理10万字的学术论文时，它只需要计算当前段落与“摘要核心句”“实验数据结论”“文献引用关键句”等2048个Token的关联，而非10万个Token，计算量骤减的同时，还能避免“无关信息干扰判断”。
专用核芯，加速计算：为了让“精准计算”不拖慢速度，稀疏MLA调用了DeepSeek自研的“FlashMLA稀疏计算核（Sparse Kernel）”。该核芯针对“小范围Token计算”做了优化，能跳过所有“未被选中的Token”，直接聚焦核心数据，计算效率比通用核芯提升3倍以上。

闪电索引器与稀疏MLA的协同，完美解决了“速度与精度”的矛盾：前者用“快筛选”排除无效信息，后者用“精计算”保证输出质量。这种“分工协作”，正是DSA能实现“效率提升不丢精度”的核心原因。

三、拆解DSA四步工作流：从“输入文本”到“精准输出”的全链路

DSA的“筛选-计算”逻辑，并非简单的“两步走”，而是拆解为“投影-评分-选择-计算”四个紧密衔接的步骤。每个步骤都有明确的目标和创新点，共同构成了“高效且精准”的注意力计算全链路。

第一步：查询与键的投影——给Token“贴标签”，还能动态调权重

一切计算的起点，是将输入的“隐藏状态（Hidden States）”转化为“查询（Query）”和“键（Key）”——这是Transformer模型的常规操作，但DSA在这一步加入了“独家创新”。

基础操作：投影+位置编码：首先，模型会将文本的隐藏状态（每个Token的特征向量）投影到两个不同的空间——Query空间和Key空间。Query代表“当前要处理的Token需要什么信息”，Key代表“每个历史Token能提供什么信息”。同时，模型会融入“旋转位置编码（Rotary Embeddings）”，让Token的位置信息被保留（比如“小明打小红”和“小红打小明”的语义差异，靠位置编码区分）。
创新点：逐头权重（Per-head Weights）：DSA在投影阶段，还会为每个“注意力头（Attention Head）”额外生成一组权重。大模型的“注意力头”相当于“多个并行的信息处理通道”，有的头擅长捕捉“语义关联”，有的头擅长捕捉“语法结构”，有的头擅长捕捉“情感倾向”。这组“逐头权重”的作用，就是让模型能“动态调整不同头的重要性”——比如处理法律文本时，放大“语义关联头”的信号；处理诗歌时，放大“情感倾向头”的信号。

这一步的价值在于：不仅为后续的“关联性判断”做好了准备，还通过“逐头权重”让模型能“因地制宜”地处理不同类型文本，为精度提升埋下伏笔。

第二步：索引器评分——用DeepGEMM加速，给Token“排优先级”

投影完成后，就轮到闪电索引器“登场”——它的任务是计算“每个Query与所有Key的关联得分”，给所有Token排个“优先级”。

基础计算：点积+掩码+缩放：索引器会用Query与所有Key计算“点积”（Dot Product）——点积值越高，说明两者关联性越强。随后，会进行“掩码（Mask）”操作（比如屏蔽“未来Token”的信息，避免模型“偷看答案”），再对得分进行“缩放（Scale）”，防止得分过高导致梯度消失。
权重调整：放大关键头的信号：接着，索引器会用第一步生成的“逐头权重”，乘以每个注意力头的得分。比如某个头在当前场景下的权重是2，它的得分就会被放大2倍；某个头的权重是0.5，得分就会被缩小一半。这一步能让模型“聚焦有用的信息通道”，过滤掉“噪音通道”的干扰。
硬件加速：DeepGEMM算子发力：为了避免“评分环节耗时过长”，整个计算过程运行在DeepSeek自研的DeepGEMM算子上。该算子针对英伟达主流GPU架构做了底层优化，能将评分速度提升2-3倍——比如处理10万个Token的评分，原本需要0.5秒，现在仅需0.2秒以内。

这一步的目标是“快速给所有Token打分”，为后续的“筛选”提供清晰的依据。

第三步：Top-k选择——只留2048个关键Token，兼容短文本场景

评分完成后，就进入“筛选环节”——索引器会为每个Query，从所有Token中选出“得分最高的2048个Token”。这一步看似简单，却藏着DSA的“兼容性智慧”。

核心逻辑：抓大放小：为什么是2048个Token？DeepSeek的技术团队解释，这是基于“大量真实场景测试”得出的最优值——2048个Token既能覆盖“长文本中的核心信息”（比如10万字文本的关键句通常不超过2000句），又能保证计算量可控。选择“得分最高”的Token，相当于“只保留与当前Query最相关的信息”，避免无关内容干扰。
特殊处理：短文本兼容：如果输入文本的总长度本身就小于或等于2048个Token（比如日常对话、短新闻），索引器会“选中所有Token”——此时DSA的行为与传统“密集注意力机制”完全一致，不会因为“稀疏计算”导致短文本处理精度下降。这种“自适应调整”，让DSA既能应对长文本，又能兼容短文本，避免了“为长文本优化而牺牲短文本体验”的问题。

这一步是“效率提升的关键”——通过将计算对象从“全量Token”压缩到“2048个关键Token”，后续的稀疏MLA计算量直接减少一个数量级。

第四步：执行稀疏MLA——调用FlashMLA核，精准计算核心关联

最后一步，轮到稀疏MLA“登场”——它会基于第三步选出的2048个Token，执行“精准的注意力计算”，生成最终的“注意力输出”。

定位关键Token：稀疏MLA首先会获取第三步输出的“关键Token索引”，从512维的键缓存中，提取这些Token的完整特征表征——这一步确保了“计算基于完整、细腻的信息”，而非简化的128维特征。
稀疏计算核加速：随后，稀疏MLA调用“FlashMLA稀疏计算核”，只对这2048个Token进行注意力计算。与传统计算核相比，FlashMLA核的优势在于“能跳过无效Token”——比如不需要遍历10万个Token，只需要聚焦2048个，计算速度提升3-5倍。
输出注意力结果：计算完成后，稀疏MLA会将“注意力权重”与“值（Value，Token的语义信息）”结合，生成最终的“注意力输出”，传递给下一个网络层（如Feed-Forward Network）。这一步的输出精度，与传统密集注意力机制基本持平，甚至在长文本场景下更优——因为排除了无关信息的干扰。

至此，DSA的完整工作流程结束。从“投影”到“计算”，每一步都围绕“效率”与“精度”展开，最终实现“1+1>2”的效果。

四、DSA的设计精髓：在“速度”与“精度”间找到完美平衡点

回顾DSA的技术细节，不难发现其设计精髓——它没有简单地“牺牲精度换速度”，也没有“为精度保速度”，而是通过“精准筛选”和“硬件优化”，在两者之间找到完美平衡点。这种“平衡”主要体现在三个方面：

1. 精度保障：Top-k筛选+完整表征，不丢关键信息

很多人担心“稀疏计算”会导致“漏看关键信息”，但DSA通过两个设计规避了这一风险：

Top-k筛选：只丢无关信息：闪电索引器的评分基于“Query与Key的关联性”，选出的2048个Token是“与当前处理内容最相关”的部分——比如处理合同中的“违约责任”条款时，选出的Token都是“违约定义”“赔偿金额”“违约情形”等关键内容，不会漏掉核心信息。
512维表征：计算基于完整信息：稀疏MLA使用512维的键缓存，对关键Token的特征表征更完整。即使筛选后Token数量减少，每个Token的信息密度反而更高，计算出的注意力权重也更精准。

公开评测数据显示，在中文常识问答、法律条款提取、医疗病历总结等任务中，DeepSeek-V3.2-Exp的准确率与V3.1-Terminus（密集注意力）相差不足1%，部分长文本任务甚至略高——这证明DSA在“降本提速”的同时，完全守住了“精度底线”。

2. 速度提升：计算量骤减+硬件优化，效率翻倍

DSA的速度提升不是“单点优化”，而是“全链路加速”：

计算量从O(L²)到O(Lk)：这是最核心的优化——当文本长度L=10万时，传统密集注意力的计算量是10⁸（10万×10万），而DSA的计算量是2×10⁵（10万×2048），计算量减少500倍。即使考虑索引器的额外计算，整体效率仍提升300倍以上。
硬件层深度优化：DeepGEMM算子（索引器评分）和FlashMLA核（稀疏MLA计算），分别针对英伟达GPU的架构特点做了底层优化，让硬件算力得到充分释放。比如在Hopper架构GPU上，DSA的推理速度比未优化的稀疏注意力快2倍。

实际测试显示，处理10万字的合同文本，V3.1-Terminus需要12秒，而V3.2-Exp仅需4.5秒；处理1万字的新闻稿，V3.1需要0.8秒，V3.2-Exp仅需0.3秒——这种“闪电般的速度”，让长文本AI应用从“理论可行”走向“实际可用”。

3. 场景兼容性：自适应调整，长短文本通吃

传统稀疏注意力机制的一大痛点是“场景适配性差”——为长文本优化后，短文本处理精度下降；为短文本兼容后，长文本效率提升有限。而DSA通过“Top-k动态调整”解决了这一问题：

长文本（L>2048）：自动筛选2048个关键Token，以稀疏模式计算，效率最大化；
短文本（L≤2048）：自动切换为“全注意力模式”，与传统机制行为一致，精度不下降。

这种“自适应能力”让DSA能覆盖“日常对话”“短新闻”“长合同”“学术论文”等全场景，无需用户手动切换模式，使用体验更流畅。

五、行业影响：DSA不止于“降价”，更改写国产大模型竞争逻辑

DeepSeek-V3.2-Exp的发布，尤其是DSA技术的落地，对国产大模型行业的影响远超“一次版本更新”。它不仅让“长文本AI应用”的商业化成为可能，更改写了行业的“竞争逻辑”——从“拼参数、拼补贴”转向“拼技术、拼效率”。

1. 长文本应用“解冻”：从“试点”走向“规模化”

此前，长文本AI应用（如10万字合同审查、5万字病历总结、20万字学术论文生成）一直处于“叫好不叫座”的状态——不是技术不可行，而是成本太高。比如一家法律咨询公司每天处理100份5万字合同，用V3.1的API每天成本约800元，一年成本超29万元，中小律所根本负担不起。

而V3.2-Exp的API价格降幅达50%-75%后，相同场景的日成本降至200-400元，一年成本仅7-14万元，直接进入“企业可承受范围”。据DeepSeek官方透露，已有多家医疗、法律、学术出版机构开始测试V3.2-Exp，计划将长文本AI应用从“小范围试点”推向“全流程规模化使用”。

这意味着，AI将真正渗透到“需要处理长文本”的核心业务场景，而非停留在“简单对话、短文本生成”等表层应用——这是国产大模型“落地价值”的一次重大突破。

2. 国产硬软协同“提速”：从“被动适配”到“主动联动”

新浪财经的报道中提到一个细节：DeepSeek-V3.2-Exp发布当天，华为昇腾、寒武纪等国产GPU厂商就宣布“0天适配完成”——即模型发布当天，就能在国产硬件上稳定运行。这种“同步适配”在过去并不常见。

此前，国产大模型多是“先在英伟达GPU上开发，再回头适配国产硬件”，导致国产GPU的支持总是“慢半拍”，性能也难以充分释放。而这次，DeepSeek在V3.2-Exp开发初期就与国产GPU厂商共享DSA技术细节，联合优化“稀疏计算核”——比如昇腾团队针对DSA的特性，优化了昇腾910的“注意力计算模块”，让V3.2-Exp在昇腾硬件上的推理速度比V3.1快2.8倍，接近英伟达A100的水平。

这种“硬软协同”的意义在于：国产大模型与国产硬件不再是“各自为战”，而是“联手破局”，摆脱了对国外GPU的依赖。未来，随着更多国产GPU厂商加入适配，“全栈国产化AI方案”将加速落地，为企业用户提供更安全、更可控的AI服务。

3. 竞争逻辑“升级”：从“价格战”到“技术战”

过去两年，国产大模型的竞争多集中在“价格战”——靠补贴拉低API价格，靠“参数规模”吸引关注，但核心技术（如注意力机制、架构设计）仍以“借鉴国外”为主。而DSA的出现，标志着国产大模型开始从“低水平价格竞争”转向“高水平技术竞争”。

DSA是首个“从论文原创到工程落地”的国产稀疏注意力机制，其性能不逊于国外同类技术（如GPT-4的稀疏注意力）。这种“自研核心技术”带来的优势，不是“短期补贴”能替代的——它能持续降低成本、提升效率，形成“技术壁垒”。

可以预见，未来国产大模型的竞争将围绕“核心技术创新”展开：谁能在注意力机制、多模态处理、Agent架构等关键领域实现突破，谁就能在“效率”“成本”“精度”上占据优势，而非靠“低价补贴”吸引用户。这种“良性竞争”，将推动整个国产AI行业向“高质量发展”迈进。

六、结语：DSA的今天，是国产AGI的明天

网友@teortaxesTex的评论“AGI将是稀疏的”，或许道破了大模型发展的核心趋势——通用人工智能（AGI）需要处理海量、多模态的信息，不可能靠“全量计算”实现，必须依赖“高效的稀疏机制”。而DeepSeek的DSA，正是向这一方向迈出的关键一步。

DSA的价值，不仅在于“让API降价75%”，更在于它证明了：国产大模型可以靠“自研技术”打破行业死结，可以在“效率”与“精度”间找到平衡，可以推动AI从“高端奢侈品”变成“普惠工具”。从闪电索引器的“快筛选”，到稀疏MLA的“精计算”；从硬件层的深度优化，到场景层的自适应兼容，DSA的每一个细节，都体现着国产大模型的“技术思考”与“落地诚意”。

随着V3.2-Exp在真实场景中的测试推进，DSA还将不断优化——或许未来Top-k的数值会更灵活，或许会适配更多国产硬件，或许会延伸到多模态领域（如长视频、多模态文档处理）。但无论如何，DSA已经为国产大模型树立了一个新标杆：技术创新，才是驱动AI普惠的真正动力。

对开发者和企业用户而言，现在或许是“拥抱长文本AI”的最佳时机——更低的成本、更快的速度、不打折的精度，让AI能真正融入核心业务，创造实实在在的价值。而对国产大模型行业而言，DSA的出现只是一个开始——未来，还会有更多“自研核心技术”涌现，推动国产AI在全球竞争中占据一席之地。

总结

此文章有对应的配套新书教材和视频：

【配套新书教材】
《GPT多模态大模型与AI Agent智能体》（跟我一起学人工智能）【陈敬雷编著】【清华大学出版社】
新书特色：《GPT多模态大模型与AI Agent智能体》（跟我一起学人工智能）是一本2025年清华大学出版社出版的图书，作者是陈敬雷，本书深入探讨了GPT多模态大模型与AI Agent智能体的技术原理及其在企业中的应用落地。
全书共8章，从大模型技术原理切入，逐步深入大模型训练及微调，还介绍了众多国内外主流大模型。LangChain技术、RAG检索增强生成、多模态大模型等均有深入讲解。对AI Agent智能体，从定义、原理到主流框架也都进行了深入讲解。在企业应用落地方面，本书提供了丰富的案例分析，如基于大模型的对话式推荐系统、多模态搜索、NL2SQL数据即席查询、智能客服对话机器人、多模态数字人，以及多模态具身智能等。这些案例不仅展示了大模型技术的实际应用，也为读者提供了宝贵的实践经验。
本书适合对大模型、多模态技术及AI Agent感兴趣的读者阅读，也特别适合作为高等院校本科生和研究生的教材或参考书。书中内容丰富、系统，既有理论知识的深入讲解，也有大量的实践案例和代码示例，能够帮助学生在掌握理论知识的同时，培养实际操作能力和解决问题的能力。通过阅读本书，读者将能够更好地理解大模型技术的前沿发展，并将其应用于实际工作中，推动人工智能技术的进步和创新。

【配套视频】

清华《GPT多模态大模型与AI Agent智能体》书籍配套视频【陈敬雷】
视频特色： 前沿技术深度解析，把握行业脉搏

实战驱动，掌握大模型开发全流程

智能涌现与 AGI 前瞻，抢占技术高地

上一篇：《GPT多模态大模型与AI Agent智能体》系列一》大模型技术原理 - 大模型技术的起源、思想
下一篇：DeepSeek大模型技术系列五》DeepSeek大模型基础设施全解析：支撑万亿参数模型的幕后英雄