
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
学习从噪声到数据分布的连续演化过程Diffusion 通过学习一个连续的去噪过程,将随机噪声逐步转化为符合数据分布的图像,并通过条件在每一步调控生成方向,实现稳定且可控的生成能力。
并行:CNN 分支 + Transformer 分支 → Reshape → Channel 对齐 → Add / Concat / Attention 融合。核心技术集中在:特征提取(Conv + Transformer)、特征融合、多尺度处理、训练策略与数据增强。串联:CNN → Flatten → Transformer → Reshape → 融合。:Transformer-based 单
我根据你今天的提问路径,把学习内容整理成一份 结构化学习过程文档,基本可以当作你的 视觉模型学习笔记(Day X)。今天的学习目标是理解以下三个问题:Detection DINO 与 DINOv2 的区别Grounding DINO 如何实现 open-vocabulary detectionVision-Language-Action (VLA) 与视觉语言模型之间的关系重点理解 视觉语义、语言
Hypernetwork → 动态生成 mask 分类器Sigmoid → 多 mask 独立像素预测SAMv3 → Cross-modal attention(文本 + 图像)SAM3D → 3D/时空 attention + voxel mask。
Hypernetwork → 动态生成 mask 分类器Sigmoid → 多 mask 独立像素预测SAMv3 → Cross-modal attention(文本 + 图像)SAM3D → 3D/时空 attention + voxel mask。
今天核心理解了Transformer Detection 的关键思想。
我给你整理成一份,这样以后复习会很清晰。今天其实已经涉及到了一整条知识链。
规则:用维度等于类别总数的二进制向量表示离散类别。仅对应索引位置为1(激活),其余全为0(抑制)。示例:3 个类别(红、黄、蓝) $\to$ 3 维向量。红=[1,0,0], 黄=[0,1,0], 蓝=[0,0,1]。权重共享要分清“目标侧绑定”(通用)和“跨语言共享”(仅限同源语言)。One-Hot是理解 Embedding 查找机制的基石。Dropout的核心是倒置实现和打破共适应。代码层面明
本学习过程以问答形式展开,从“中文翻译成英文是否通过二进制转换”这一朴素问题出发,逐步深入到神经网络机器翻译(NMT)、Embedding、Transformer 架构(Add & Norm、Linear 层、多头注意力、前馈网络)、训练技巧(Teacher Forcing、Mask)以及 RNN 与 Transformer 的对比。通过本次对话式学习,不仅掌握了 Transformer 的理论基
A 局部最优梯度=0,Loss 较高动量、随机初始化、更深网络 B 梯度消失梯度≈0,Loss 高(平台区)ReLU、残差连接、批归一化 C 鞍点某些方向梯度为 0 动量、Adam 优化器 D 全局最优梯度=0,Loss。Adam+正确正则泛化好,收敛快计算略多大模型,Transformer,推荐默认。动量+自适应快速收敛,易用泛化略差默认首选,NLP,快速实验。:降采样操作,减少特征图尺寸,增强







