robin_ze 个人主页

@robin_ze

robin_ze

2023-04-21 13:12:25 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

InternVL系列论文笔记

InternVL系列论文笔记摘要：InternVL系列是上海AILab推出的开源多模态大语言模型(MLLM)，旨在缩小与商业模型的差距。该系列采用"ViT-MLP-LLM"三段式架构，核心创新在于系统性的工程优化和训练策略。

#论文阅读 #AIGC #vim

Kimi Linear的前身：由Gated Delta Rule扩展的Linear Attention

本文推导了线性注意力机制(Linear Attention)及其改进方法DeltaNet的计算公式。首先分析了标准自注意力机制通过分解指数项实现线性近似。然后介绍了DeltaNet的核心思想：采用增量更新规则动态调整记忆矩阵，通过引入遗忘机制解决长序列处理问题。文章详细推导了DeltaNet的数学形式，包括其线性性质和分块并行计算方法，证明了该模型能有效平衡记忆保留与更新。最后给出了DeltaNe

#python #机器学习 #算法

Qwen3-VL架构及核心模块

Qwen3-VL基于2.5版本进行升级，主要包括：带有细粒度语义提取能力的图文对齐encoder（SigLIP2）、解决长视频探索问题的位置编码（MoPE-I）、更丰富和深层次的模态融合机制（DeepStack）以及增强视频处理能力的时间编码（TimeStack）。通过上述架构更新，连通多阶段训练，Qwen3-VL实现更优异的性能表现。

#开源 #AIGC #vim +2

DeepSeek-OCR 模型结构笔记

DeepSeek-OCR采用创新性的编码器-解码器架构处理文档OCR任务。编码器部分使用双塔架构DeepEncoder，结合SAM和CLIP模型，支持多分辨率输入（512-1280像素），通过智能填充和局部+全局视角处理不同尺寸图像。解码器采用MoE架构。该模型的创新架构有效平衡了计算成本和识别精度。

#图像处理 #AIGC

LLM实战【书生·浦语 InternLM实战营】6 - Lagent与AgentLego

使用InternLM的lagent和AgentLego功能

#开源

scheduler：pytorch训练过程中自动调整learning rate

import torch.optim as optimoptimizer = optim.Adam(net.parameters(), lr=1e-3, betas=(0.9, 0.99))在使用pytorch训练神经网络时，可能需要根据情况调整学习率（learning rate）

#python #深度学习 #神经网络

到底了