
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
本周通过对比分析三种文档解析范式和剖析一个具体轻量模型,构建了对多模态OCR技术路线的清晰认知。在技术范式层面,理解了从早期模块化流水线(Pipeline)到引入大模型的两阶段(Layout+VLM),再到追求统一建模的端到端(VLM finetune)的演进逻辑,各自在灵活性、精度与复杂性上存在权衡。

本周聚焦扩散模型与Mamba模型的创新方法。系统研究了DiT模型的核心机制,包括图像分块嵌入策略、四种条件嵌入方案及其参数初始化策略;深入推导了扩散模型的数学原理;研读了论文CCViM,其创新性地将上下文聚类与视觉状态空间模型结合,通过局部网格聚类增强VMamba的全局建模能力。

本周深入研究了混合专家模型(MoE)的核心原理与Stable Diffusion的图像生成机制。系统分析了MoE架构中稀疏层与门控网络的协同工作机制,详细解析了动态路由策略、负载均衡优化及辅助损失函数设计;全面掌握了Stable Diffusion的完整工作流程,包括CLIP文本编码、U-Net噪声预测、VAE隐空间压缩等关键技术环节。通过理论推导与架构分析,建立了从大模型参数效率优化到生成式模型

本周通过理论分析与案例复盘,获得了关于模型优化与学术交流的双重启示。Qwen提出的门控注意力机制通过引入可学习的Sigmoid门,赋予模型“拒绝分配”的能力,实验证明其能将首Token注意力占比从46.7%降至4.8%,最大激活值从1053降至94,有效提升了训练稳定性与推理效率。

本周通过深入研究两篇前沿论文,系统掌握了AI推理领域的最新进展:在视频思维方面,理解了传统文本思维(Chain-of-Thought)和图像思维的固有局限性——静态约束和模态割裂,而"Thinking with Video"通过视频生成将时间、视觉与文本逻辑统一,创造了动态推理的新范式,其创新的VideoThinkBench评估框架和自洽性机制为多模态推理提供了新方向;

本周通过深度研读两项顶尖研究团队的最新成果:在JiT扩散模型方面,深入理解了其"返璞归真"的核心思想;在LeJEPA架构方面,系统掌握了Yann LeCun在自监督学习领域的持续创新。通过本周学习,不仅掌握了具体的技术创新,更深化了对AI基础理论发展路径的理解,为后续跟踪前沿研究和开展原创性工作提供了重要的思想基础。

本周通过对比分析三种文档解析范式和剖析一个具体轻量模型,构建了对多模态OCR技术路线的清晰认知。在技术范式层面,理解了从早期模块化流水线(Pipeline)到引入大模型的两阶段(Layout+VLM),再到追求统一建模的端到端(VLM finetune)的演进逻辑,各自在灵活性、精度与复杂性上存在权衡。










