logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【清华代码熊】DeepSeek V4多模态技术解析:以视觉基元思考

📌 今天解析DeepSeek开源又紧急撤回的论文:《Thinking with Visual Primitives》,在 DeepSeek V4 Flash 基础上构建多模态🔥推理模型。

#人工智能#自然语言处理#深度学习
【清华代码熊】解析|DeepSeek R1更新86页技术报告讲了啥?

📌 DeepSeek在26年1月4日更新了发布一年的 DeepSeek R1 技术报告(从22页扩充到86页),更新包括:1. 训练细节/Reward Rule设计/Reward模型训练。2. 各个ckpt更完整的评测体系。3. 训练与工程侧经验补充。📌 本期总结技术报告更新中的重点内容和insights

文章图片
#人工智能#自然语言处理#语言模型
【清华代码熊】4B蒸馏模型超Qwen3-32B?阿里DASD蒸馏解析!

📌 25年初 DeepSeek R1 验证了通过 Teacher 模型 Reasoning Data 进行硬蒸馏可以显著提升Student模型推理能力,但是这个方法存在以下问题:🌟 Teacher Model 分布覆盖不均衡🌟 梯度误导(misleading gradients)🌟 训推不一致导致的暴露偏差(exposure bias)📌 阿里的 DASD 通过主动采样的方式解决以上问题

文章图片
#人工智能#自然语言处理#语言模型
【清华代码熊】DeepSeek OCR V2 开源|技术报告&代码解析!

📌 25年10月份的时候我们介绍过 DeepSeek OCR V1,时隔三个月官方又放出 V2 版本,相比于 V1,核心改进在于:🌟 使用自回归架构的 LM Vision Encoder 替代主流 CLIP-ViT,通过语义重排序(而非空间位置编码)使视觉特征更适配LLM的单向解码模式。🌟 在OmniDocBench v1.5上,模型表现超过两阶段的 MinerU2.5,略差于两阶段的Pad

文章图片
#人工智能#自然语言处理#语言模型
【清华代码熊】面试官:DeepSeek OCR v1和v2版本的区别?

📌 25年10月份的时候我们介绍过 DeepSeek OCR V1,时隔三个月官方又放出 V2 版本。🎯今天解析相比于 V1 版本,v2版本的改进点:🌟模型结构:DeepEncoder内CLIP-ViT替换为LLM-based Vision Encoder🌟模型训练:V2的DeepEncoder从V1冷启动,但是需要针对LLM-based Vision Encoder单独训练

文章图片
#深度学习#人工智能#自然语言处理
【清华代码熊】Agent Harness 工程实践之(1): Context管理

📌 Agent Harness 作为 2026 年上半年 Agent 技术代名词,在讲到具体方法论的时候却又“说不清”。🔥 这个系列会通过解析 Claude Code / DeepAgents / OpenHands 等框架,通过“了解Harness 工业做法” 学习 Harness。

文章图片
#自然语言处理#人工智能#深度学习 +1
【清华代码熊】Agent Harness 工程实践之(1): Context管理

📌 Agent Harness 作为 2026 年上半年 Agent 技术代名词,在讲到具体方法论的时候却又“说不清”。🔥 这个系列会通过解析 Claude Code / DeepAgents / OpenHands 等框架,通过“了解Harness 工业做法” 学习 Harness。

文章图片
#自然语言处理#人工智能#深度学习 +1
【清华代码熊】面试官:DeepSeek OCR v1和v2版本的区别?

📌 25年10月份的时候我们介绍过 DeepSeek OCR V1,时隔三个月官方又放出 V2 版本。🎯今天解析相比于 V1 版本,v2版本的改进点:🌟模型结构:DeepEncoder内CLIP-ViT替换为LLM-based Vision Encoder🌟模型训练:V2的DeepEncoder从V1冷启动,但是需要针对LLM-based Vision Encoder单独训练

文章图片
#深度学习#人工智能#自然语言处理
【清华代码熊】面试官:Tool Response 需要 Loss Mask吗?

📌 今天解析智谱Agent算法面经:Tool Response 需要 Loss Mask吗?理由是什么?llamafactory 和 verl 里是怎么做的?

文章图片
#人工智能#自然语言处理#深度学习
【清华代码熊】V4技术预览:DeepSeek mHC架构与代码解析

📌 昨天解析了 Kimi 苏剑林的Attention Residuals这个工作,在之前 DeepSeek 也有一个关于 Transformer 残差的改进 mHC,而且与 Engram 可能都是 DeepSeek V4的架构基础。📌 今天来解析 mHC 的技术原理&社区代码实现。

文章图片
#人工智能#自然语言处理#深度学习
    共 13 条
  • 1
  • 2
  • 请选择