logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【清华代码熊】V4技术预览:DeepSeek mHC架构与代码解析

📌 昨天解析了 Kimi 苏剑林的Attention Residuals这个工作,在之前 DeepSeek 也有一个关于 Transformer 残差的改进 mHC,而且与 Engram 可能都是 DeepSeek V4的架构基础。📌 今天来解析 mHC 的技术原理&社区代码实现。

文章图片
#人工智能#自然语言处理#深度学习
【清华代码熊】RL后训练解析|Cursor Composer 2 技术报告

📌 今天来解析Cursor Composer 2 技术报告,期一度因为使用Kimi K2.5预训练基座饱受争议,但是其技术报告关注Coding Agent的RL训练,做这个方向🧭的还是值得一看。

文章图片
#composer#人工智能#自然语言处理 +1
【清华代码熊】Coding 测评 GLM 5.1、DeepSeek V4,选哪个?

📌 周五 DeepSeek V4 终于开源,在做到了 1M 上下文 FLOPs / KVCache 的极限压缩之后,不少小伙伴问我在 Claude Code 里 DeepSeek V4 体验怎么样,和不久前支持超长程任务的 GLM5.1 比效果如何?终于今天博主在对比体验了2天之后,简单给大家分析一下。📌 模型架构对比:🌟 GLM 5.1 使用的是 DSA(DeepSeek Sparse A

文章图片
#自然语言处理#深度学习#人工智能
【清华代码熊】DeepSeek V4架构/代码,一文带你读懂细节!

📌 为什么 DeepSeek V4 能够支持 1 M 上下文,并且保持低 FLOPs/KV Cache开销,答案就藏在模型架构上。📌 今天带你从DeepSeek技术报告/源代码级别理解DeepSeek V4相比V3/V3.2的🔥技术细节改进!

文章图片
#人工智能#自然语言处理#深度学习
【清华代码熊】解析DeepSeek V4如何把KV Cahce压缩到10%?

📌 昨天解析了 DeepSeek V4 的架构,解释了 CSA+ HCA 为什么能在低 KV Cache 开销下实现 1M上下文🔥🤔 但是 DeepSeek V4 技术报告中【相比上一代V3.2,KV Cache占用仅10%】是如何计算/估计的,今天带大家手把手计算,借此进一步理解V4架构(会算KV Cache量/参数量,架构自然懂)

文章图片
#人工智能#自然语言处理#深度学习
【清华代码熊】拆解DeepSeek V4训练:预训练+ OPD后训练

📌 今天来解析 DeepSeek V4训练流程,主要关注预训练阶段与 V3/V3.2 的区别、1M长上下文拓展训练、后训练 On-Policy Distillation 实现。

文章图片
#人工智能#深度学习#自然语言处理
【清华代码熊】DeepSeek V4多模态技术解析:以视觉基元思考

📌 今天解析DeepSeek开源又紧急撤回的论文:《Thinking with Visual Primitives》,在 DeepSeek V4 Flash 基础上构建多模态🔥推理模型。

#人工智能#自然语言处理#深度学习
【清华代码熊】解析|DeepSeek大模型原生Memory论文Engram

📌 今天来解析 DeepSeek 的新论文 Engram,最近 DeepSeek 频发论文,是不是要为发布模型预热📌 论文背景:当前MoE模型通过条件计算实现了模型容量的扩展,但 Transformer 本身缺乏原生的知识检索机制,造成语言任务的动态推理与静态知识检索需求未被有效解耦。🔥Engram 的解决方案:在大模型主干上的一部分Transformer Block中增加一个N-gram单

文章图片
#人工智能
到底了