古希腊掌管代码的神THU 个人主页

@thu_dmx

古希腊掌管代码的神THU

2026-01-12 11:01:22 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

【清华代码熊】解析｜DeepSeek大模型原生Memory论文Engram

📌 今天来解析 DeepSeek 的新论文 Engram，最近 DeepSeek 频发论文，是不是要为发布模型预热📌 论文背景：当前MoE模型通过条件计算实现了模型容量的扩展，但 Transformer 本身缺乏原生的知识检索机制，造成语言任务的动态推理与静态知识检索需求未被有效解耦。🔥Engram 的解决方案：在大模型主干上的一部分Transformer Block中增加一个N-gram单

#人工智能

【清华代码熊】解析｜百度多模态大模型Paddle-OCR-VL-1.5

📌 百度本次开源的模型是在PaddleOCR-VL基础上的升级版 PaddleOCR-VL-1.5，仍然保持 0.9B 的轻量级两阶段任务建模，核心改进点：🌟 布局检测模型架构升级：采用 PP-DocLayoutV3 布局检测模型实现像素级文档元素定位。🌟 训练策略与数据增强：引入强化学习后训练(GRPO)，解决标注风格不一致问题。🌟 推理效率优化：采用异步多线程流水线架构。📌 实验效果

#paddle #人工智能 #自然语言处理 +1

【清华代码熊】字节面试官：多模态大模型动态分辨率原理？

📌 本期解析字节大模型面试题：“多模态大模型的动态分辨率是怎么做的？”📌 目前主流的两种动态分辨率方案：🌟 原生动态分辨率（Native Dynamic Resolution）🌟 基于切片的动态分辨率（Dynamic Tiling）

#人工智能 #自然语言处理 #深度学习

【清华代码熊】面试官：多模态大模型视觉Token压缩方法？

📌 本期解析面壁智能多模态大模型面试题：“多模态大模型缓解长序列计算瓶颈的方法？多模态大模型视觉Token压缩方法？”

#人工智能 #自然语言处理 #深度学习

【清华代码熊】解析｜DeepSeek DSpark 技术细节 & 代码解读

📌 本期解析最近 DeepSeek 的 Infra 推测解码工作 DSpark，直接用用 DeepSeek 家目前的基座模型 DeepSeek-V4-Pro-DSpark。

#人工智能 #自然语言处理 #深度学习 +1

【清华代码熊】解析｜DeepSeek DSpark 技术细节 & 代码解读

📌 本期解析最近 DeepSeek 的 Infra 推测解码工作 DSpark，直接用用 DeepSeek 家目前的基座模型 DeepSeek-V4-Pro-DSpark。

#人工智能 #自然语言处理 #深度学习 +1

【清华代码熊】解析｜DeepSeek DSpark 技术细节 & 代码解读

📌 本期解析最近 DeepSeek 的 Infra 推测解码工作 DSpark，直接用用 DeepSeek 家目前的基座模型 DeepSeek-V4-Pro-DSpark。

#人工智能 #自然语言处理 #深度学习 +1

【清华代码熊】GLM-5.2 使用的interleaved RoPE 原理详解

📌 GLM-5.2 的主分支注意力改用 DeepSeek 风格的 interleaved RoPE，indexer 仍然用非交错的 half-split RoPE（GLM-5 主分支注意力的实现）。🎯 今天来解析 interleaved RoPE 相对 half-split RoPE 的区别。

#人工智能 #自然语言处理 #深度学习

【清华代码熊】GLM-5.2 使用的interleaved RoPE 原理详解

#人工智能 #自然语言处理 #深度学习

【清华代码熊】GLM-5.2 使用的interleaved RoPE 原理详解

#人工智能 #自然语言处理 #深度学习

共 23 条

请选择