DeepSeek V4 悄悄把 KV 缓存砍到了 V3 的 10%，1M 上下文直接变成默认选项。

SGLang 团队的分析博客里把这个结构画得更清楚：每一层由 SWA + C4（4:1 压缩、top-512 稀疏）+ C128（128:1 压缩、稠密）三种 KV 池组成，一个 10k token 的请求，只需要存 128 个 SWA tokens 加上完整的 C4/C128 压缩 KV，其他请求匹配到前缀时直接复用压缩版。技术报告 PDF：https://huggingface.co/deep

Sitin涛哥

554人浏览 · 2026-04-29 22:01:00

Sitin涛哥 · 2026-04-29 22:01:00 发布

点击上方卡片关注我

设置星标学习更多AI出海知识

4 月 24 日DeepSeek 悄悄甩了个 V4 Preview 出来，HN 上那条帖子直接冲到 2063 分、1589 条评论，开源圈集体熬夜。

我把技术报告、官方发布页、benchmark 表格、SGLang 的 day-0 支持博客全扒了一遍，这篇聊几个官方公告里一笔带过、但其实才是这次升级真正分水岭的细节。

先把大盘数据列清楚

这次一次放了两个模型：

DeepSeek-V4-Pro：1.6T 总参数 / 49B 激活参数（MoE）。
DeepSeek-V4-Flash：284B 总参数 / 13B 激活参数（MoE）。

两个模型都支持 1M token 上下文，都走 FP4 + FP8 混合精度（MoE 专家权重是 FP4，其他主要是 FP8），Base 模型预训练用了 32T+ tokens。

权重全部 MIT license 开源，放 HuggingFace deepseek-ai/DeepSeek-V4-Pro 和 DeepSeek-V4-Flash 下。

这些都是台面上的数。真正扎人的是下面几个。

1M 上下文变默认了，代价是 KV cache 砍到 V3.2 的 10%

很多人看到"1M 上下文"第一反应是：又一个吹参数的。

但这次官方在 V4 Preview 公告里写了一句话：

1M Standard: 1M context is now the default across all official DeepSeek services.

翻过来就是：从今往后，chat.deepseek.com 和 API 默认就是 1M 上下文。不是"可以开到 1M"，是"默认 1M"。

这是硬件和算法两头同时捶才能做到的事。

技术报告里直接给了数：

In the 1M-token context setting, DeepSeek-V4-Pro requires only 27% of single-token inference FLOPs and 10% of KV cache compared with DeepSeek-V3.2.

FLOPs 砍到 27%，KV cache 砍到 10%，这不是渐进优化，这是砍一刀。

砍的方法叫 Hybrid Attention，每一层混合了两种机制：

CSA（Compressed Sparse Attention）：对压缩后的 KV 做 top-k 稀疏查询。
HCA（Heavily Compressed Attention）：对压缩率更狠的 KV 做稠密查询。

再配上一个 128 token 的 SWA（sliding window attention）作局部窗口。

SGLang 团队的分析博客里把这个结构画得更清楚：每一层由 SWA + C4（4:1 压缩、top-512 稀疏）+ C128（128:1 压缩、稠密）三种 KV 池组成，一个 10k token 的请求，只需要存 128 个 SWA tokens 加上完整的 C4/C128 压缩 KV，其他请求匹配到前缀时直接复用压缩版。

听着绕，但效果是实打实的——SGLang 测下来，**B200 从 4K 到 900K 上下文，decode throughput 只掉了不到 10%**（199 → 180 tokens/s）。

放在以前，上下文翻 200 倍意味着性能雪崩；现在几乎是一条水平线。

FP4 专家权重：不是量化后处理，是原生

公告里还有一句被大多数媒体跳过的话："native FP4 MoE experts"。

原生 FP4，不是训练完拿出来再 quantize 那种。

这是什么意思？FP4 每个参数只用 4 bit，比 FP8 又砍一半，1.6T 参数如果全 FP4，纯权重大小理论上 800GB 左右，加上 FP8 的其他参数和 KV cache，现在在单台 8xH200 或 B200 上就能跑起满血 V4-Pro 推理。

HuggingFace 的下载表写得很直白：

模型	总参	激活参	精度
DeepSeek-V4-Flash-Base	284B	13B	FP8 Mixed
DeepSeek-V4-Flash	284B	13B	FP4 + FP8 Mixed
DeepSeek-V4-Pro-Base	1.6T	49B	FP8 Mixed
DeepSeek-V4-Pro	1.6T	49B	FP4 + FP8 Mixed

Base 版（给你继续训练用）是 FP8，Instruct 版（给你推理用）是 FP4+FP8 混合，专家权重单独用 FP4，其他主干 FP8，这样小 batch decode 时 MoE 专家权重带宽的压力一下降下来了。

SGLang 那边直接集成了 TRTLLM-Gen 的 MXFP8 × MXFP4 fused MoE kernel，专门吃这个 FP4 专家权重，Blackwell 架构上能把 decode 的 bandwidth 瓶颈打穿。

Codeforces 3206 分，SWE Verified 80.6，这次是真的打平 Opus

过去几版 DeepSeek 在 coding 上一直是"便宜但差一口气"。这次 benchmark 拉平了。

HuggingFace 页面里有一张 V4-Pro-Max 和前沿闭源模型的对比表，拎几个关键分数：

Benchmark	Opus-4.6 Max	GPT-5.4 xHigh	Gemini-3.1-Pro	DS-V4-Pro Max
LiveCodeBench	88.8	—	91.7	93.5
Codeforces（Rating）	—	3168	3052	3206
SWE Verified	80.8	—	80.6	80.6
HumanEval（Base 0-shot）	—	—	—	76.8（V3.2 Base 是 62.8）
Terminal Bench 2.0	65.4	75.1	68.5	67.9
MMLU-Pro	89.1	87.5	91.0	87.5
HLE（Pass@1）	40.0	39.8	44.4	37.7

代码能力追平了。LiveCodeBench 和 Codeforces 反超 Opus 4.6 Max 和 GPT-5.4 xHigh。SWE Verified 和 Opus 4.6 差 0.2 分，基本可以当打平看。

知识类 benchmark（MMLU-Pro、HLE）还是 Gemini 3.1 Pro 领先，但开源模型里 V4-Pro-Max 是断崖第一。

另外一个值得说的是 V4-Flash（284B/13B 激活）的 Think Max 模式——LiveCodeBench 91.6，Codeforces 3052，已经打到 Gemini 3.1 Pro 和 Opus 4.6 的水平了。这个尺寸，推理成本是 Pro 的小一部分，对实际部署的人来说比 Pro 更有意义。

deepseek-chat 和 deepseek-reasoner 要下线了

公告里最后一条，中文媒体基本没人注意：

deepseek-chat & deepseek-reasoner will be fully retired and inaccessible after Jul 24th, 2026, 15:59 (UTC Time).

2026 年 7 月 24 日 15:59 UTC 之后，deepseek-chat 和 deepseek-reasoner 两个 model 名彻底下线。

目前这两个 model 名会自动路由到 deepseek-v4-flash 的 non-thinking 和 thinking 模式。

如果你代码里硬编码了 model="deepseek-chat"，7 月 24 日前必须改成 deepseek-v4-flash 或 deepseek-v4-pro，base_url 不用变，加一个新的请求参数 thinking_mode 来切思考模式。

顺便说一嘴，新的 API 同时支持 OpenAI ChatCompletions 和 Anthropic APIs 两套协议——也就是把代码里 Anthropic SDK 的 base_url 指过来也能用。这个是给 Claude Code 用户留的门。

为什么公告里专门提 Claude Code

这也是一个被忽略的细节。公告里有这么一句：

DeepSeek-V4 is seamlessly integrated with leading AI agents like Claude Code, OpenClaw & OpenCode.

DeepSeek 在 V4 上做了专门的 agent 能力优化，而且明确点名 Claude Code。

为什么？因为 Claude Code 的 API 协议是 Anthropic Messages API，而 V4 原生兼容 Anthropic API。换句话说：

你装好 Claude Code，改一下 ANTHROPIC_BASE_URL 指向 DeepSeek API，就能用 V4 跑 Claude Code 的所有功能——hooks、skills、subagents、MCP 都能用。

Agentic coding benchmark 里：

Terminal Bench 2.0：67.9（Opus 4.6 是 65.4）
SWE Multilingual：76.2
MCPAtlas Public：73.6

这些数字的意义是：V4-Pro 已经能当 Claude Code 的后端模型用，而且在某些 agent 场景里比 Opus 4.6 还强。成本差多少大家心里有数。

写在最后

这一代最狠的不是参数堆到 1.6T，也不是上下文拉到 1M。是 DeepSeek 把"长上下文 + 高性能 + 能跑 agent"这三件事同时做到了，还开源了权重。

1M context 现在是默认选项，FP4 让单机能跑满血 Pro，Anthropic API 兼容让你的 Claude Code 直接换引擎。

所有评论(0)

查看更多评论

Sitin涛哥

@wuShiJingZuo

已为社区贡献1条内容

DeepSeek V4 悄悄把 KV 缓存砍到了 V3 的 10%，1M 上下文直接变成默认选项。

Sitin涛哥

先把大盘数据列清楚

1M 上下文变默认了，代价是 KV cache 砍到 V3.2 的 10%

FP4 专家权重：不是量化后处理，是原生

Codeforces 3206 分，SWE Verified 80.6，这次是真的打平 Opus

deepseek-chat 和 deepseek-reasoner 要下线了

为什么公告里专门提 Claude Code

写在最后

延伸阅读

所有评论(0)

温馨提示：您尚未绑定手机号

Sitin涛哥