点击上方卡片关注我

设置星标 学习更多AI出海知识

4 月 24 日DeepSeek 悄悄甩了个 V4 Preview 出来,HN 上那条帖子直接冲到 2063 分、1589 条评论,开源圈集体熬夜。

我把技术报告、官方发布页、benchmark 表格、SGLang 的 day-0 支持博客全扒了一遍,这篇聊几个官方公告里一笔带过、但其实才是这次升级真正分水岭的细节。

先把大盘数据列清楚

这次一次放了两个模型:

  • DeepSeek-V4-Pro:1.6T 总参数 / 49B 激活参数(MoE)。

  • DeepSeek-V4-Flash:284B 总参数 / 13B 激活参数(MoE)。

两个模型都支持 1M token 上下文,都走 FP4 + FP8 混合精度(MoE 专家权重是 FP4,其他主要是 FP8),Base 模型预训练用了 32T+ tokens

权重全部 MIT license 开源,放 HuggingFace deepseek-ai/DeepSeek-V4-Pro 和 DeepSeek-V4-Flash 下。

这些都是台面上的数。真正扎人的是下面几个。

1M 上下文变默认了,代价是 KV cache 砍到 V3.2 的 10%

很多人看到"1M 上下文"第一反应是:又一个吹参数的。

但这次官方在 V4 Preview 公告里写了一句话:

1M Standard: 1M context is now the default across all official DeepSeek services.

翻过来就是:从今往后,chat.deepseek.com 和 API 默认就是 1M 上下文。不是"可以开到 1M",是"默认 1M"。

这是硬件和算法两头同时捶才能做到的事。

技术报告里直接给了数:

In the 1M-token context setting, DeepSeek-V4-Pro requires only 27% of single-token inference FLOPs and 10% of KV cache compared with DeepSeek-V3.2.

FLOPs 砍到 27%,KV cache 砍到 10%,这不是渐进优化,这是砍一刀。

砍的方法叫 Hybrid Attention,每一层混合了两种机制:

  • CSA(Compressed Sparse Attention):对压缩后的 KV 做 top-k 稀疏查询。

  • HCA(Heavily Compressed Attention):对压缩率更狠的 KV 做稠密查询。

再配上一个 128 token 的 SWA(sliding window attention)作局部窗口。

SGLang 团队的分析博客里把这个结构画得更清楚:每一层由 SWA + C4(4:1 压缩、top-512 稀疏)+ C128(128:1 压缩、稠密)三种 KV 池组成,一个 10k token 的请求,只需要存 128 个 SWA tokens 加上完整的 C4/C128 压缩 KV,其他请求匹配到前缀时直接复用压缩版。

听着绕,但效果是实打实的——SGLang 测下来,**B200 从 4K 到 900K 上下文,decode throughput 只掉了不到 10%**(199 → 180 tokens/s)。

放在以前,上下文翻 200 倍意味着性能雪崩;现在几乎是一条水平线。

FP4 专家权重:不是量化后处理,是原生

公告里还有一句被大多数媒体跳过的话:"native FP4 MoE experts"。

原生 FP4,不是训练完拿出来再 quantize 那种。

这是什么意思?FP4 每个参数只用 4 bit,比 FP8 又砍一半,1.6T 参数如果全 FP4,纯权重大小理论上 800GB 左右,加上 FP8 的其他参数和 KV cache,现在在单台 8xH200 或 B200 上就能跑起满血 V4-Pro 推理

HuggingFace 的下载表写得很直白:

模型

总参

激活参

精度

DeepSeek-V4-Flash-Base

284B

13B

FP8 Mixed

DeepSeek-V4-Flash

284B

13B

FP4 + FP8 Mixed

DeepSeek-V4-Pro-Base

1.6T

49B

FP8 Mixed

DeepSeek-V4-Pro

1.6T

49B

FP4 + FP8 Mixed

Base 版(给你继续训练用)是 FP8,Instruct 版(给你推理用)是 FP4+FP8 混合,专家权重单独用 FP4,其他主干 FP8,这样小 batch decode 时 MoE 专家权重带宽的压力一下降下来了。

SGLang 那边直接集成了 TRTLLM-Gen 的 MXFP8 × MXFP4 fused MoE kernel,专门吃这个 FP4 专家权重,Blackwell 架构上能把 decode 的 bandwidth 瓶颈打穿。

Codeforces 3206 分,SWE Verified 80.6,这次是真的打平 Opus

过去几版 DeepSeek 在 coding 上一直是"便宜但差一口气"。这次 benchmark 拉平了。

HuggingFace 页面里有一张 V4-Pro-Max 和前沿闭源模型的对比表,拎几个关键分数:

Benchmark

Opus-4.6 Max

GPT-5.4 xHigh

Gemini-3.1-Pro

DS-V4-Pro Max

LiveCodeBench

88.8

91.7

93.5

Codeforces(Rating)

3168

3052

3206

SWE Verified

80.8

80.6

80.6

HumanEval(Base 0-shot)

76.8(V3.2 Base 是 62.8)

Terminal Bench 2.0

65.4

75.1

68.5

67.9

MMLU-Pro

89.1

87.5

91.0

87.5

HLE(Pass@1)

40.0

39.8

44.4

37.7

代码能力追平了。LiveCodeBench 和 Codeforces 反超 Opus 4.6 Max 和 GPT-5.4 xHigh。SWE Verified 和 Opus 4.6 差 0.2 分,基本可以当打平看。

知识类 benchmark(MMLU-Pro、HLE)还是 Gemini 3.1 Pro 领先,但开源模型里 V4-Pro-Max 是断崖第一。

另外一个值得说的是 V4-Flash(284B/13B 激活)的 Think Max 模式——LiveCodeBench 91.6,Codeforces 3052,已经打到 Gemini 3.1 Pro 和 Opus 4.6 的水平了。这个尺寸,推理成本是 Pro 的小一部分,对实际部署的人来说比 Pro 更有意义。

deepseek-chat 和 deepseek-reasoner 要下线了

公告里最后一条,中文媒体基本没人注意:

deepseek-chat & deepseek-reasoner will be fully retired and inaccessible after Jul 24th, 2026, 15:59 (UTC Time).

2026 年 7 月 24 日 15:59 UTC 之后,deepseek-chat 和 deepseek-reasoner 两个 model 名彻底下线

目前这两个 model 名会自动路由到 deepseek-v4-flash 的 non-thinking 和 thinking 模式。

如果你代码里硬编码了 model="deepseek-chat",7 月 24 日前必须改成 deepseek-v4-flash 或 deepseek-v4-pro,base_url 不用变,加一个新的请求参数 thinking_mode 来切思考模式。

顺便说一嘴,新的 API 同时支持 OpenAI ChatCompletions 和 Anthropic APIs 两套协议——也就是把代码里 Anthropic SDK 的 base_url 指过来也能用。这个是给 Claude Code 用户留的门。

为什么公告里专门提 Claude Code

这也是一个被忽略的细节。公告里有这么一句:

DeepSeek-V4 is seamlessly integrated with leading AI agents like Claude Code, OpenClaw & OpenCode.

DeepSeek 在 V4 上做了专门的 agent 能力优化,而且明确点名 Claude Code。

为什么?因为 Claude Code 的 API 协议是 Anthropic Messages API,而 V4 原生兼容 Anthropic API。换句话说:

你装好 Claude Code,改一下 ANTHROPIC_BASE_URL 指向 DeepSeek API,就能用 V4 跑 Claude Code 的所有功能——hooks、skills、subagents、MCP 都能用。

Agentic coding benchmark 里:

  • Terminal Bench 2.0:67.9(Opus 4.6 是 65.4)

  • SWE Multilingual:76.2

  • MCPAtlas Public:73.6

这些数字的意义是:V4-Pro 已经能当 Claude Code 的后端模型用,而且在某些 agent 场景里比 Opus 4.6 还强。成本差多少大家心里有数。

写在最后

这一代最狠的不是参数堆到 1.6T,也不是上下文拉到 1M。是 DeepSeek 把"长上下文 + 高性能 + 能跑 agent"这三件事同时做到了,还开源了权重

1M context 现在是默认选项,FP4 让单机能跑满血 Pro,Anthropic API 兼容让你的 Claude Code 直接换引擎。

延伸阅读

  • 官方 Preview 公告:https://api-docs.deepseek.com/news/news260424

  • 技术报告 PDF:https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

  • HuggingFace 模型页:https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro

我们出海社区终于有自己的网站了!

欢迎关注,这个账号还会持续分享更多AI编程、出海工具、实战经验、踩坑记录。

想了解更多可以加我 vx: 257735 聊。

图片

出海赚钱案例:一个人做了个开源UI库,不融资不投广告,45天30万美元

出海建站必备:一小时搞定自建邮件,免费!

OpenClaw 真香!我让它每天帮我干这些活

出海赚钱案例:一个人用 PHP 做到月入 17 万美金,利润率 99%!

(2026年最新)Codex CLI 国内使用全攻略:终端 + VSCode + Cursor + Opencode 四种姿势全搞定

从海外公司注册到 Stripe 收款,跑通了出海收付款全流程(实操分享)

玩转 Claude Code Hooks:让自动化渗透到每个环节

Logo

欢迎来到AMD开发者中国社区,我们致力于为全球开发者提供 ROCm、Ryzen AI Software 和 ZenDNN等全栈软硬件优化支持。携手中国开发者,链接全球开源生态,与你共建开放、协作的技术社区。

更多推荐