
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
本周系统学习了李宏毅机器学习基础内容,深入理解了机器学习的三大核心任务,即回归任务、分类任务和结构化学习,以及完整的训练流程,包括模型定义、损失函数设计和基于梯度下降的优化方法。同时,掌握了 PyTorch 的核心操作,例如张量的创建与运算如加法、索引和尺寸修改,张量与 NumPy 数组的相互转换,以及如何利用 GPU 加速计算的 CUDA 张量应用。

本周深入研究了混合专家模型(MoE)的核心原理与Stable Diffusion的图像生成机制。系统分析了MoE架构中稀疏层与门控网络的协同工作机制,详细解析了动态路由策略、负载均衡优化及辅助损失函数设计;全面掌握了Stable Diffusion的完整工作流程,包括CLIP文本编码、U-Net噪声预测、VAE隐空间压缩等关键技术环节。通过理论推导与架构分析,建立了从大模型参数效率优化到生成式模型

本周深入研究了混合专家模型(MoE)的核心原理与Stable Diffusion的图像生成机制。系统分析了MoE架构中稀疏层与门控网络的协同工作机制,详细解析了动态路由策略、负载均衡优化及辅助损失函数设计;全面掌握了Stable Diffusion的完整工作流程,包括CLIP文本编码、U-Net噪声预测、VAE隐空间压缩等关键技术环节。通过理论推导与架构分析,建立了从大模型参数效率优化到生成式模型

本周聚焦多模态大模型架构创新与交互式智能体训练方法。深入研究了字节Seed1.5-VL的三阶段预训练策略(MLP适配器对齐→视觉定位OCR→视频推理扩展)与强化学习后训练机制(拒绝采样+PPO算法),重点分析了其动态帧采样和时间戳标记等核心技术;系统学习了LLaVA-mini的视觉token压缩与模态预融合优化方案,以及USERRL框架的交互式训练环境设计与轨迹级评分机制。研究构建了从多模态特征对

本周系统学习了LLaVA多模态大模型的理论框架与部署实践。深入解析了LLaVA的架构设计思想——通过CLIP视觉编码器提取图像特征,结合Projection层实现视觉-语言特征维度对齐,采用两阶段训练策略(先冻住主干网络单独训练映射层,再微调语言模型);完整实践了服务器环境下的模型部署流程,包括环境配置、权重下载、CLI推理与Web端服务搭建,解决了fastapi版本冲突等实际问题。研究建立了从多

本周系统学习了LLaVA多模态大模型的理论框架与部署实践。深入解析了LLaVA的架构设计思想——通过CLIP视觉编码器提取图像特征,结合Projection层实现视觉-语言特征维度对齐,采用两阶段训练策略(先冻住主干网络单独训练映射层,再微调语言模型);完整实践了服务器环境下的模型部署流程,包括环境配置、权重下载、CLI推理与Web端服务搭建,解决了fastapi版本冲突等实际问题。研究建立了从多

本周聚焦扩散模型与Mamba模型的创新方法。系统研究了DiT模型的核心机制,包括图像分块嵌入策略、四种条件嵌入方案及其参数初始化策略;深入推导了扩散模型的数学原理;研读了论文CCViM,其创新性地将上下文聚类与视觉状态空间模型结合,通过局部网格聚类增强VMamba的全局建模能力。

本周系统研究了Transformer架构中的关键优化技术与视觉Transformer模型演进。深入分析了残差连接解决网络退化问题的机制及其在梯度传播中的重要作用,剖析了层归一化在稳定训练过程与加速收敛方面的核心价值;完整解析了Vision Transformer的图像分块嵌入、位置编码与Transformer编码器集成架构;重点研究了Swin Transformer的层次化设计、滑动窗口注意力机制

本周深入研究了Transformer架构的核心组件:注意力机制与前馈神经网络。系统解析了自注意力机制的计算流程,包括查询-键-值矩阵的生成、缩放点积注意力计算及softmax归一化过程;详细探讨了多头注意力机制的多视角特征提取能力与线性变换实现方式;完整分析了前馈神经网络的两层全连接结构与ReLU激活函数的非线性变换作用。









