
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
📌 今天解析DeepSeek开源又紧急撤回的论文:《Thinking with Visual Primitives》,在 DeepSeek V4 Flash 基础上构建多模态🔥推理模型。
📌 DeepSeek在26年1月4日更新了发布一年的 DeepSeek R1 技术报告(从22页扩充到86页),更新包括:1. 训练细节/Reward Rule设计/Reward模型训练。2. 各个ckpt更完整的评测体系。3. 训练与工程侧经验补充。📌 本期总结技术报告更新中的重点内容和insights

📌 25年初 DeepSeek R1 验证了通过 Teacher 模型 Reasoning Data 进行硬蒸馏可以显著提升Student模型推理能力,但是这个方法存在以下问题:🌟 Teacher Model 分布覆盖不均衡🌟 梯度误导(misleading gradients)🌟 训推不一致导致的暴露偏差(exposure bias)📌 阿里的 DASD 通过主动采样的方式解决以上问题

📌 25年10月份的时候我们介绍过 DeepSeek OCR V1,时隔三个月官方又放出 V2 版本,相比于 V1,核心改进在于:🌟 使用自回归架构的 LM Vision Encoder 替代主流 CLIP-ViT,通过语义重排序(而非空间位置编码)使视觉特征更适配LLM的单向解码模式。🌟 在OmniDocBench v1.5上,模型表现超过两阶段的 MinerU2.5,略差于两阶段的Pad

📌 25年10月份的时候我们介绍过 DeepSeek OCR V1,时隔三个月官方又放出 V2 版本。🎯今天解析相比于 V1 版本,v2版本的改进点:🌟模型结构:DeepEncoder内CLIP-ViT替换为LLM-based Vision Encoder🌟模型训练:V2的DeepEncoder从V1冷启动,但是需要针对LLM-based Vision Encoder单独训练

📌 Agent Harness 作为 2026 年上半年 Agent 技术代名词,在讲到具体方法论的时候却又“说不清”。🔥 这个系列会通过解析 Claude Code / DeepAgents / OpenHands 等框架,通过“了解Harness 工业做法” 学习 Harness。

📌 Agent Harness 作为 2026 年上半年 Agent 技术代名词,在讲到具体方法论的时候却又“说不清”。🔥 这个系列会通过解析 Claude Code / DeepAgents / OpenHands 等框架,通过“了解Harness 工业做法” 学习 Harness。

📌 25年10月份的时候我们介绍过 DeepSeek OCR V1,时隔三个月官方又放出 V2 版本。🎯今天解析相比于 V1 版本,v2版本的改进点:🌟模型结构:DeepEncoder内CLIP-ViT替换为LLM-based Vision Encoder🌟模型训练:V2的DeepEncoder从V1冷启动,但是需要针对LLM-based Vision Encoder单独训练

📌 今天解析智谱Agent算法面经:Tool Response 需要 Loss Mask吗?理由是什么?llamafactory 和 verl 里是怎么做的?

📌 昨天解析了 Kimi 苏剑林的Attention Residuals这个工作,在之前 DeepSeek 也有一个关于 Transformer 残差的改进 mHC,而且与 Engram 可能都是 DeepSeek V4的架构基础。📌 今天来解析 mHC 的技术原理&社区代码实现。








