logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

学习周报三十二

本周通过对两篇论文的研读与实践,深入理解了当前大模型训练与多模态生成中的两个关键优化方向。

文章图片
#学习#人工智能
学习周报二十七

本周通过对比分析三种文档解析范式和剖析一个具体轻量模型,构建了对多模态OCR技术路线的清晰认知。在技术范式层面,理解了从早期模块化流水线(Pipeline)到引入大模型的两阶段(Layout+VLM),再到追求统一建模的端到端(VLM finetune)的演进逻辑,各自在灵活性、精度与复杂性上存在权衡。

文章图片
#学习
AI基础学习周报十三

本周聚焦扩散模型与Mamba模型的创新方法。系统研究了DiT模型的核心机制,包括图像分块嵌入策略、四种条件嵌入方案及其参数初始化策略;深入推导了扩散模型的数学原理;研读了论文CCViM,其创新性地将上下文聚类与视觉状态空间模型结合,通过局部网格聚类增强VMamba的全局建模能力。

文章图片
#人工智能#学习#深度学习 +1
学习周报十九

本周深入研究了混合专家模型(MoE)的核心原理与Stable Diffusion的图像生成机制。系统分析了MoE架构中稀疏层与门控网络的协同工作机制,详细解析了动态路由策略、负载均衡优化及辅助损失函数设计;全面掌握了Stable Diffusion的完整工作流程,包括CLIP文本编码、U-Net噪声预测、VAE隐空间压缩等关键技术环节。通过理论推导与架构分析,建立了从大模型参数效率优化到生成式模型

文章图片
#学习
学习周报二十六

本周通过理论分析与案例复盘,获得了关于模型优化与学术交流的双重启示。Qwen提出的门控注意力机制通过引入可学习的Sigmoid门,赋予模型“拒绝分配”的能力,实验证明其能将首Token注意力占比从46.7%降至4.8%,最大激活值从1053降至94,有效提升了训练稳定性与推理效率。

文章图片
#学习
学习周报二十一

本周通过深入研究两篇前沿论文,系统掌握了AI推理领域的最新进展:在视频思维方面,理解了传统文本思维(Chain-of-Thought)和图像思维的固有局限性——静态约束和模态割裂,而"Thinking with Video"通过视频生成将时间、视觉与文本逻辑统一,创造了动态推理的新范式,其创新的VideoThinkBench评估框架和自洽性机制为多模态推理提供了新方向;

文章图片
#学习
学习周报二十五

本周通过深入研究三项紧密相关的技术,系统掌握了视觉信息高效处理与模型优化的前沿方法。当然也有阅读源码,提升代码能力。

文章图片
#学习#人工智能
学习周报二十四

本周通过深度研读两项顶尖研究团队的最新成果:在JiT扩散模型方面,深入理解了其"返璞归真"的核心思想;在LeJEPA架构方面,系统掌握了Yann LeCun在自监督学习领域的持续创新。通过本周学习,不仅掌握了具体的技术创新,更深化了对AI基础理论发展路径的理解,为后续跟踪前沿研究和开展原创性工作提供了重要的思想基础。

文章图片
#学习
学习周报二十七

本周通过对比分析三种文档解析范式和剖析一个具体轻量模型,构建了对多模态OCR技术路线的清晰认知。在技术范式层面,理解了从早期模块化流水线(Pipeline)到引入大模型的两阶段(Layout+VLM),再到追求统一建模的端到端(VLM finetune)的演进逻辑,各自在灵活性、精度与复杂性上存在权衡。

文章图片
#学习
学习周报二十一

本周通过深入研究两篇前沿论文,系统掌握了AI推理领域的最新进展:在视频思维方面,理解了传统文本思维(Chain-of-Thought)和图像思维的固有局限性——静态约束和模态割裂,而"Thinking with Video"通过视频生成将时间、视觉与文本逻辑统一,创造了动态推理的新范式,其创新的VideoThinkBench评估框架和自洽性机制为多模态推理提供了新方向;

文章图片
#学习
    共 19 条
  • 1
  • 2
  • 请选择