注:此文章内容均节选自充电了么创始人,CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AI Agent智能体》(跟我一起学人工智能)【陈敬雷编著】【清华大学出版社】

清华《GPT多模态大模型与AI Agent智能体》书籍配套视频课程【陈敬雷】

文章目录

GPT多模态大模型与AI Agent智能体系列二百零九

狂降75%!大模型DeepSeek-V3.2 API杀疯了:性能零衰减的秘密,藏在DSA这两大“黑科技”里

当国产大模型还在为“小幅性能提升”或“常规版本迭代”绞尽脑汁时,DeepSeek突然扔出一颗“王炸”——9月底发布的实验性模型DeepSeek-V3.2-Exp,不仅首次亮出自研的核心技术“DSA稀疏注意力机制”,更把API调用价格砍到“地板价”:最高降幅达75%。更颠覆认知的是,这场“降价风暴”并非以“牺牲性能”为代价,反而在长文本处理效率上实现“飞跃式提升”。

对开发者、企业用户乃至整个AI行业而言,这不是一次普通的版本更新,而是国产大模型在“技术自研”与“商业普惠”之间找到完美平衡点的标志性事件。新浪财经披露的细节显示,DSA绝非简单的“计算减法”,而是由“闪电索引器”和“稀疏MLA”组成的精密系统,通过“先筛选、后计算”的逻辑,破解了传统大模型“长文本处理成本高、效率低”的行业死结。接下来,我们将从技术原理、工作流程、设计精髓到行业影响,全方位拆解DSA的“魔力”,揭开“降价不降质”的核心密码。

一、反常的“实验版”:为何DeepSeek敢给V3.2-Exp“砍价75%”?

在大模型行业,“实验版”往往意味着“功能待验证”“性能不稳定”,大多以“免费试用”或“小幅优惠”吸引测试用户。但DeepSeek-V3.2-Exp完全打破了这一惯例:作为“迈向新一代架构的中间步骤”,它不仅公开宣称“在评测集上验证有效”,更直接将API价格腰斩再腰斩——据官方信息,部分场景下价格降幅高达75%,几乎回到2023年大模型“价格战”初期的水平。

这种“反常操作”的底气,完全来自DSA(DeepSeek Sparse Attention)的技术突破。在此之前,传统大模型采用的“密集注意力机制”存在致命缺陷:处理文本时,每个Token(文本基本单位)都要与所有其他Token计算关联,导致计算量随文本长度呈“平方级增长”(复杂度O(L²))。比如处理10万字的合同文本,计算量会是处理1万字文本的100倍,不仅耗时久,硬件成本也高得惊人。

而DSA通过“精准筛选关键信息、只对核心内容计算”的逻辑,将计算复杂度从O(L²)骤降至O(Lk)(k为固定的关键Token数,默认2048)。当文本长度从1万字增至10万字时,DSA的计算量仅增长10倍,而非100倍。这种“效率革命”直接转化为“成本红利”——硬件投入减少、推理速度加快,最终反映在API价格的“断崖式下降”上。

更关键的是,DeepSeek并未将V3.2-Exp定位为“半成品”。官方明确表示,该版本已通过公开评测集验证,性能与上一代旗舰V3.1-Terminus基本持平;但为了确保“覆盖所有真实场景”,仍开放了用户反馈通道(https://feedback.deepseek.com/dsa),邀请开发者在法律、医疗、学术等场景中测试,排除“极端场景下效果欠佳”的可能。这种“技术自信+严谨验证”的态度,让“实验版”反而成为企业用户“敢用、想用”的选择。

二、DSA的两大“核心武器”:一个“筛得快”,一个“算得准”

DSA的设计思想可以概括为“分工协作”:用一个轻量级组件快速筛选关键信息,再用一个重量级组件精准计算核心关联。这两个组件——“闪电索引器(Lightning Indexer)”和“稀疏多潜在注意力(Sparse MLA)”,共同构成了DSA的“技术骨架”,缺一不可。

1. 闪电索引器:128维轻量缓存,做大模型的“速读高手”

如果把DSA比作“处理长文本的工厂”,闪电索引器就是“原料筛选车间”——它的核心任务是“用最少的成本,挑出最有价值的原料”。

传统密集注意力机制之所以低效,是因为没有“筛选环节”,直接对所有Token进行“全量计算”,相当于“把沙子和金子一起放进熔炉”,既浪费能源,又拖慢进度。而闪电索引器的存在,就是“先把金子挑出来”:

  • 轻量缓存,快速扫描:为了追求极致速度,闪电索引器使用“128维的键缓存(Key Cache)”——每个Token仅用128个数值来表征核心特征,远少于稀疏MLA的512维。这种“简化表征”大幅降低了内存占用,让索引器能在极短时间内扫描完整个文本(比如10万字文本仅需毫秒级时间)。
  • 目标明确,只找“关键”:索引器的核心逻辑不是“理解文本含义”,而是“判断关联性”——对当前正在处理的Token(Query),快速计算它与所有历史Token(Key)的关联得分,找出“最相关”的那部分。比如处理医疗病历时,它会自动识别“症状”“用药史”“检查结果”等与当前诊断相关的Token,忽略“患者基本信息重复项”“格式说明”等无关内容。
  • 硬件适配,效率拉满:为了避免“筛选环节成为新瓶颈”,闪电索引器的计算过程运行在DeepSeek自研的“DeepGEMM算子”上。该算子专门针对英伟达Hopper、Blackwell架构GPU做了深度优化,能最大限度发挥硬件算力,确保“筛选速度”跟得上“文本输入速度”。

简单说,闪电索引器的价值在于“用最小的计算成本,排除无效信息”,为后续的精准计算“扫清障碍”。如果没有它,稀疏MLA仍需面对海量Token,效率提升将无从谈起。

2. 稀疏MLA:512维精准计算,做大模型的“精算师”

如果说闪电索引器是“筛选车间”,那么稀疏多潜在注意力(Sparse MLA)就是“核心加工车间”——它不负责“挑原料”,只对“筛选后的金子”进行“精细化加工”,确保输出结果的精度。

稀疏MLA的设计思路与闪电索引器完全相反:前者追求“快”,后者追求“准”;前者用“简化表征”,后者用“完整表征”:

  • 高维缓存,保证精度:稀疏MLA使用“512维的键缓存”,每个Token的特征表征更完整、更细腻。比如描述“高血压”时,128维缓存可能只记录“疾病名称+数值范围”,而512维缓存还能包含“并发症风险”“用药禁忌”“患者年龄关联”等细节。这种“完整表征”是确保注意力计算精准的基础——只有掌握足够多的细节,才能判断Token间的深层关联。
  • 只算核心,拒绝冗余:稀疏MLA不会像传统机制那样“全量计算”,而是只针对闪电索引器选出的“Top-k Token”(默认2048个)进行计算。比如处理10万字的学术论文时,它只需要计算当前段落与“摘要核心句”“实验数据结论”“文献引用关键句”等2048个Token的关联,而非10万个Token,计算量骤减的同时,还能避免“无关信息干扰判断”。
  • 专用核芯,加速计算:为了让“精准计算”不拖慢速度,稀疏MLA调用了DeepSeek自研的“FlashMLA稀疏计算核(Sparse Kernel)”。该核芯针对“小范围Token计算”做了优化,能跳过所有“未被选中的Token”,直接聚焦核心数据,计算效率比通用核芯提升3倍以上。

闪电索引器与稀疏MLA的协同,完美解决了“速度与精度”的矛盾:前者用“快筛选”排除无效信息,后者用“精计算”保证输出质量。这种“分工协作”,正是DSA能实现“效率提升不丢精度”的核心原因。

三、拆解DSA四步工作流:从“输入文本”到“精准输出”的全链路

DSA的“筛选-计算”逻辑,并非简单的“两步走”,而是拆解为“投影-评分-选择-计算”四个紧密衔接的步骤。每个步骤都有明确的目标和创新点,共同构成了“高效且精准”的注意力计算全链路。

第一步:查询与键的投影——给Token“贴标签”,还能动态调权重

一切计算的起点,是将输入的“隐藏状态(Hidden States)”转化为“查询(Query)”和“键(Key)”——这是Transformer模型的常规操作,但DSA在这一步加入了“独家创新”。

  • 基础操作:投影+位置编码:首先,模型会将文本的隐藏状态(每个Token的特征向量)投影到两个不同的空间——Query空间和Key空间。Query代表“当前要处理的Token需要什么信息”,Key代表“每个历史Token能提供什么信息”。同时,模型会融入“旋转位置编码(Rotary Embeddings)”,让Token的位置信息被保留(比如“小明打小红”和“小红打小明”的语义差异,靠位置编码区分)。
  • 创新点:逐头权重(Per-head Weights):DSA在投影阶段,还会为每个“注意力头(Attention Head)”额外生成一组权重。大模型的“注意力头”相当于“多个并行的信息处理通道”,有的头擅长捕捉“语义关联”,有的头擅长捕捉“语法结构”,有的头擅长捕捉“情感倾向”。这组“逐头权重”的作用,就是让模型能“动态调整不同头的重要性”——比如处理法律文本时,放大“语义关联头”的信号;处理诗歌时,放大“情感倾向头”的信号。

这一步的价值在于:不仅为后续的“关联性判断”做好了准备,还通过“逐头权重”让模型能“因地制宜”地处理不同类型文本,为精度提升埋下伏笔。

第二步:索引器评分——用DeepGEMM加速,给Token“排优先级”

投影完成后,就轮到闪电索引器“登场”——它的任务是计算“每个Query与所有Key的关联得分”,给所有Token排个“优先级”。

  • 基础计算:点积+掩码+缩放:索引器会用Query与所有Key计算“点积”(Dot Product)——点积值越高,说明两者关联性越强。随后,会进行“掩码(Mask)”操作(比如屏蔽“未来Token”的信息,避免模型“偷看答案”),再对得分进行“缩放(Scale)”,防止得分过高导致梯度消失。
  • 权重调整:放大关键头的信号:接着,索引器会用第一步生成的“逐头权重”,乘以每个注意力头的得分。比如某个头在当前场景下的权重是2,它的得分就会被放大2倍;某个头的权重是0.5,得分就会被缩小一半。这一步能让模型“聚焦有用的信息通道”,过滤掉“噪音通道”的干扰。
  • 硬件加速:DeepGEMM算子发力:为了避免“评分环节耗时过长”,整个计算过程运行在DeepSeek自研的DeepGEMM算子上。该算子针对英伟达主流GPU架构做了底层优化,能将评分速度提升2-3倍——比如处理10万个Token的评分,原本需要0.5秒,现在仅需0.2秒以内。

这一步的目标是“快速给所有Token打分”,为后续的“筛选”提供清晰的依据。

第三步:Top-k选择——只留2048个关键Token,兼容短文本场景

评分完成后,就进入“筛选环节”——索引器会为每个Query,从所有Token中选出“得分最高的2048个Token”。这一步看似简单,却藏着DSA的“兼容性智慧”。

  • 核心逻辑:抓大放小:为什么是2048个Token?DeepSeek的技术团队解释,这是基于“大量真实场景测试”得出的最优值——2048个Token既能覆盖“长文本中的核心信息”(比如10万字文本的关键句通常不超过2000句),又能保证计算量可控。选择“得分最高”的Token,相当于“只保留与当前Query最相关的信息”,避免无关内容干扰。
  • 特殊处理:短文本兼容:如果输入文本的总长度本身就小于或等于2048个Token(比如日常对话、短新闻),索引器会“选中所有Token”——此时DSA的行为与传统“密集注意力机制”完全一致,不会因为“稀疏计算”导致短文本处理精度下降。这种“自适应调整”,让DSA既能应对长文本,又能兼容短文本,避免了“为长文本优化而牺牲短文本体验”的问题。

这一步是“效率提升的关键”——通过将计算对象从“全量Token”压缩到“2048个关键Token”,后续的稀疏MLA计算量直接减少一个数量级。

第四步:执行稀疏MLA——调用FlashMLA核,精准计算核心关联

最后一步,轮到稀疏MLA“登场”——它会基于第三步选出的2048个Token,执行“精准的注意力计算”,生成最终的“注意力输出”。

  • 定位关键Token:稀疏MLA首先会获取第三步输出的“关键Token索引”,从512维的键缓存中,提取这些Token的完整特征表征——这一步确保了“计算基于完整、细腻的信息”,而非简化的128维特征。
  • 稀疏计算核加速:随后,稀疏MLA调用“FlashMLA稀疏计算核”,只对这2048个Token进行注意力计算。与传统计算核相比,FlashMLA核的优势在于“能跳过无效Token”——比如不需要遍历10万个Token,只需要聚焦2048个,计算速度提升3-5倍。
  • 输出注意力结果:计算完成后,稀疏MLA会将“注意力权重”与“值(Value,Token的语义信息)”结合,生成最终的“注意力输出”,传递给下一个网络层(如Feed-Forward Network)。这一步的输出精度,与传统密集注意力机制基本持平,甚至在长文本场景下更优——因为排除了无关信息的干扰。

至此,DSA的完整工作流程结束。从“投影”到“计算”,每一步都围绕“效率”与“精度”展开,最终实现“1+1>2”的效果。

四、DSA的设计精髓:在“速度”与“精度”间找到完美平衡点

回顾DSA的技术细节,不难发现其设计精髓——它没有简单地“牺牲精度换速度”,也没有“为精度保速度”,而是通过“精准筛选”和“硬件优化”,在两者之间找到完美平衡点。这种“平衡”主要体现在三个方面:

1. 精度保障:Top-k筛选+完整表征,不丢关键信息

很多人担心“稀疏计算”会导致“漏看关键信息”,但DSA通过两个设计规避了这一风险:

  • Top-k筛选:只丢无关信息:闪电索引器的评分基于“Query与Key的关联性”,选出的2048个Token是“与当前处理内容最相关”的部分——比如处理合同中的“违约责任”条款时,选出的Token都是“违约定义”“赔偿金额”“违约情形”等关键内容,不会漏掉核心信息。
  • 512维表征:计算基于完整信息:稀疏MLA使用512维的键缓存,对关键Token的特征表征更完整。即使筛选后Token数量减少,每个Token的信息密度反而更高,计算出的注意力权重也更精准。

公开评测数据显示,在中文常识问答、法律条款提取、医疗病历总结等任务中,DeepSeek-V3.2-Exp的准确率与V3.1-Terminus(密集注意力)相差不足1%,部分长文本任务甚至略高——这证明DSA在“降本提速”的同时,完全守住了“精度底线”。

2. 速度提升:计算量骤减+硬件优化,效率翻倍

DSA的速度提升不是“单点优化”,而是“全链路加速”:

  • 计算量从O(L²)到O(Lk):这是最核心的优化——当文本长度L=10万时,传统密集注意力的计算量是10⁸(10万×10万),而DSA的计算量是2×10⁵(10万×2048),计算量减少500倍。即使考虑索引器的额外计算,整体效率仍提升300倍以上。
  • 硬件层深度优化:DeepGEMM算子(索引器评分)和FlashMLA核(稀疏MLA计算),分别针对英伟达GPU的架构特点做了底层优化,让硬件算力得到充分释放。比如在Hopper架构GPU上,DSA的推理速度比未优化的稀疏注意力快2倍。

实际测试显示,处理10万字的合同文本,V3.1-Terminus需要12秒,而V3.2-Exp仅需4.5秒;处理1万字的新闻稿,V3.1需要0.8秒,V3.2-Exp仅需0.3秒——这种“闪电般的速度”,让长文本AI应用从“理论可行”走向“实际可用”。

3. 场景兼容性:自适应调整,长短文本通吃

传统稀疏注意力机制的一大痛点是“场景适配性差”——为长文本优化后,短文本处理精度下降;为短文本兼容后,长文本效率提升有限。而DSA通过“Top-k动态调整”解决了这一问题:

  • 长文本(L>2048):自动筛选2048个关键Token,以稀疏模式计算,效率最大化;
  • 短文本(L≤2048):自动切换为“全注意力模式”,与传统机制行为一致,精度不下降。

这种“自适应能力”让DSA能覆盖“日常对话”“短新闻”“长合同”“学术论文”等全场景,无需用户手动切换模式,使用体验更流畅。

五、行业影响:DSA不止于“降价”,更改写国产大模型竞争逻辑

DeepSeek-V3.2-Exp的发布,尤其是DSA技术的落地,对国产大模型行业的影响远超“一次版本更新”。它不仅让“长文本AI应用”的商业化成为可能,更改写了行业的“竞争逻辑”——从“拼参数、拼补贴”转向“拼技术、拼效率”。

1. 长文本应用“解冻”:从“试点”走向“规模化”

此前,长文本AI应用(如10万字合同审查、5万字病历总结、20万字学术论文生成)一直处于“叫好不叫座”的状态——不是技术不可行,而是成本太高。比如一家法律咨询公司每天处理100份5万字合同,用V3.1的API每天成本约800元,一年成本超29万元,中小律所根本负担不起。

而V3.2-Exp的API价格降幅达50%-75%后,相同场景的日成本降至200-400元,一年成本仅7-14万元,直接进入“企业可承受范围”。据DeepSeek官方透露,已有多家医疗、法律、学术出版机构开始测试V3.2-Exp,计划将长文本AI应用从“小范围试点”推向“全流程规模化使用”。

这意味着,AI将真正渗透到“需要处理长文本”的核心业务场景,而非停留在“简单对话、短文本生成”等表层应用——这是国产大模型“落地价值”的一次重大突破。

2. 国产硬软协同“提速”:从“被动适配”到“主动联动”

新浪财经的报道中提到一个细节:DeepSeek-V3.2-Exp发布当天,华为昇腾、寒武纪等国产GPU厂商就宣布“0天适配完成”——即模型发布当天,就能在国产硬件上稳定运行。这种“同步适配”在过去并不常见。

此前,国产大模型多是“先在英伟达GPU上开发,再回头适配国产硬件”,导致国产GPU的支持总是“慢半拍”,性能也难以充分释放。而这次,DeepSeek在V3.2-Exp开发初期就与国产GPU厂商共享DSA技术细节,联合优化“稀疏计算核”——比如昇腾团队针对DSA的特性,优化了昇腾910的“注意力计算模块”,让V3.2-Exp在昇腾硬件上的推理速度比V3.1快2.8倍,接近英伟达A100的水平。

这种“硬软协同”的意义在于:国产大模型与国产硬件不再是“各自为战”,而是“联手破局”,摆脱了对国外GPU的依赖。未来,随着更多国产GPU厂商加入适配,“全栈国产化AI方案”将加速落地,为企业用户提供更安全、更可控的AI服务。

3. 竞争逻辑“升级”:从“价格战”到“技术战”

过去两年,国产大模型的竞争多集中在“价格战”——靠补贴拉低API价格,靠“参数规模”吸引关注,但核心技术(如注意力机制、架构设计)仍以“借鉴国外”为主。而DSA的出现,标志着国产大模型开始从“低水平价格竞争”转向“高水平技术竞争”。

DSA是首个“从论文原创到工程落地”的国产稀疏注意力机制,其性能不逊于国外同类技术(如GPT-4的稀疏注意力)。这种“自研核心技术”带来的优势,不是“短期补贴”能替代的——它能持续降低成本、提升效率,形成“技术壁垒”。

可以预见,未来国产大模型的竞争将围绕“核心技术创新”展开:谁能在注意力机制、多模态处理、Agent架构等关键领域实现突破,谁就能在“效率”“成本”“精度”上占据优势,而非靠“低价补贴”吸引用户。这种“良性竞争”,将推动整个国产AI行业向“高质量发展”迈进。

六、结语:DSA的今天,是国产AGI的明天

网友@teortaxesTex的评论“AGI将是稀疏的”,或许道破了大模型发展的核心趋势——通用人工智能(AGI)需要处理海量、多模态的信息,不可能靠“全量计算”实现,必须依赖“高效的稀疏机制”。而DeepSeek的DSA,正是向这一方向迈出的关键一步。

DSA的价值,不仅在于“让API降价75%”,更在于它证明了:国产大模型可以靠“自研技术”打破行业死结,可以在“效率”与“精度”间找到平衡,可以推动AI从“高端奢侈品”变成“普惠工具”。从闪电索引器的“快筛选”,到稀疏MLA的“精计算”;从硬件层的深度优化,到场景层的自适应兼容,DSA的每一个细节,都体现着国产大模型的“技术思考”与“落地诚意”。

随着V3.2-Exp在真实场景中的测试推进,DSA还将不断优化——或许未来Top-k的数值会更灵活,或许会适配更多国产硬件,或许会延伸到多模态领域(如长视频、多模态文档处理)。但无论如何,DSA已经为国产大模型树立了一个新标杆:技术创新,才是驱动AI普惠的真正动力。

对开发者和企业用户而言,现在或许是“拥抱长文本AI”的最佳时机——更低的成本、更快的速度、不打折的精度,让AI能真正融入核心业务,创造实实在在的价值。而对国产大模型行业而言,DSA的出现只是一个开始——未来,还会有更多“自研核心技术”涌现,推动国产AI在全球竞争中占据一席之地。

更多技术内容

更多技术内容可参见
清华《GPT多模态大模型与AI Agent智能体》书籍配套视频【陈敬雷】
更多的技术交流和探讨也欢迎加我个人微信chenjinglei66。

总结

此文章有对应的配套新书教材和视频:

【配套新书教材】
《GPT多模态大模型与AI Agent智能体》(跟我一起学人工智能)【陈敬雷编著】【清华大学出版社】
新书特色:《GPT多模态大模型与AI Agent智能体》(跟我一起学人工智能)是一本2025年清华大学出版社出版的图书,作者是陈敬雷,本书深入探讨了GPT多模态大模型与AI Agent智能体的技术原理及其在企业中的应用落地。
全书共8章,从大模型技术原理切入,逐步深入大模型训练及微调,还介绍了众多国内外主流大模型。LangChain技术、RAG检索增强生成、多模态大模型等均有深入讲解。对AI Agent智能体,从定义、原理到主流框架也都进行了深入讲解。在企业应用落地方面,本书提供了丰富的案例分析,如基于大模型的对话式推荐系统、多模态搜索、NL2SQL数据即席查询、智能客服对话机器人、多模态数字人,以及多模态具身智能等。这些案例不仅展示了大模型技术的实际应用,也为读者提供了宝贵的实践经验。
本书适合对大模型、多模态技术及AI Agent感兴趣的读者阅读,也特别适合作为高等院校本科生和研究生的教材或参考书。书中内容丰富、系统,既有理论知识的深入讲解,也有大量的实践案例和代码示例,能够帮助学生在掌握理论知识的同时,培养实际操作能力和解决问题的能力。通过阅读本书,读者将能够更好地理解大模型技术的前沿发展,并将其应用于实际工作中,推动人工智能技术的进步和创新。

【配套视频】

清华《GPT多模态大模型与AI Agent智能体》书籍配套视频【陈敬雷】
视频特色: 前沿技术深度解析,把握行业脉搏

实战驱动,掌握大模型开发全流程

智能涌现与 AGI 前瞻,抢占技术高地

上一篇:《GPT多模态大模型与AI Agent智能体》系列一》大模型技术原理 - 大模型技术的起源、思想
下一篇:DeepSeek大模型技术系列五》DeepSeek大模型基础设施全解析:支撑万亿参数模型的幕后英雄

Logo

更多推荐