
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
📌 昨天解析了 Kimi 苏剑林的Attention Residuals这个工作,在之前 DeepSeek 也有一个关于 Transformer 残差的改进 mHC,而且与 Engram 可能都是 DeepSeek V4的架构基础。📌 今天来解析 mHC 的技术原理&社区代码实现。

📌 今天来解析Cursor Composer 2 技术报告,期一度因为使用Kimi K2.5预训练基座饱受争议,但是其技术报告关注Coding Agent的RL训练,做这个方向🧭的还是值得一看。

📌 周五 DeepSeek V4 终于开源,在做到了 1M 上下文 FLOPs / KVCache 的极限压缩之后,不少小伙伴问我在 Claude Code 里 DeepSeek V4 体验怎么样,和不久前支持超长程任务的 GLM5.1 比效果如何?终于今天博主在对比体验了2天之后,简单给大家分析一下。📌 模型架构对比:🌟 GLM 5.1 使用的是 DSA(DeepSeek Sparse A

📌 为什么 DeepSeek V4 能够支持 1 M 上下文,并且保持低 FLOPs/KV Cache开销,答案就藏在模型架构上。📌 今天带你从DeepSeek技术报告/源代码级别理解DeepSeek V4相比V3/V3.2的🔥技术细节改进!

📌 昨天解析了 DeepSeek V4 的架构,解释了 CSA+ HCA 为什么能在低 KV Cache 开销下实现 1M上下文🔥🤔 但是 DeepSeek V4 技术报告中【相比上一代V3.2,KV Cache占用仅10%】是如何计算/估计的,今天带大家手把手计算,借此进一步理解V4架构(会算KV Cache量/参数量,架构自然懂)

📌 今天来解析 DeepSeek V4训练流程,主要关注预训练阶段与 V3/V3.2 的区别、1M长上下文拓展训练、后训练 On-Policy Distillation 实现。

📌 今天解析DeepSeek开源又紧急撤回的论文:《Thinking with Visual Primitives》,在 DeepSeek V4 Flash 基础上构建多模态🔥推理模型。
📌 今天来解析 DeepSeek 的新论文 Engram,最近 DeepSeek 频发论文,是不是要为发布模型预热📌 论文背景:当前MoE模型通过条件计算实现了模型容量的扩展,但 Transformer 本身缺乏原生的知识检索机制,造成语言任务的动态推理与静态知识检索需求未被有效解耦。🔥Engram 的解决方案:在大模型主干上的一部分Transformer Block中增加一个N-gram单








