logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

理解重参数化

重参数化技巧是 VAE 能够成功训练的魔法棒。目标:在网络中引入可控的随机性以学习概率分布。问题:直接的随机采样操作会阻断梯度反向传播。解决方案:将随机性剥离为固定的外部噪声输入 (ε),并将原有的采样过程转变为一个由网络参数 (μσ) 和该噪声共同参与的、可微分的确定性函数 (正是这个技巧,使得 VAE 可以像普通神经网络一样,使用梯度下降进行端到端的优化,也成就了它在深度生成模型领域的重要地位

#人工智能
【DL】信息注入

注入范式具体机制核心逻辑 / 数学本质适用场景与控制粒度经典架构代表特征调制FiLM纯粹的通道缩放与平移跨空间维度直接激活/抑制特定语义通道VQA 早期模型特征调制AdaIN实例归一化 + 仿射变换抹除原有空间风格,注入全新的全局风格StyleGAN特征调制AdaGN分组归一化 + 仿射变换注入全局去噪状态,兼顾小Batch稳定与语义保留SD (U-Net主干)特征调制adaLN层归一化 + 仿射

#人工智能
【AIGC】stable diffusion

Stable Diffusion(SD)作为目前生成式AI领域的基石模型之一,其本质是。与传统的直接在像素空间进行加噪去噪的扩散模型不同,SD 的核心创新在于将扩散过程转移到了低维的隐空间(Latent Space)中进行,从而大幅降低了计算资源的消耗。以下是 Stable Diffusion 的网络结构拆解、核心关注点,以及针对算法工程师(尤其是偏向多模态和生成方向)的常见面试题与解答。

#AIGC
【AIGC】stable diffusion

Stable Diffusion(SD)作为目前生成式AI领域的基石模型之一,其本质是。与传统的直接在像素空间进行加噪去噪的扩散模型不同,SD 的核心创新在于将扩散过程转移到了低维的隐空间(Latent Space)中进行,从而大幅降低了计算资源的消耗。以下是 Stable Diffusion 的网络结构拆解、核心关注点,以及针对算法工程师(尤其是偏向多模态和生成方向)的常见面试题与解答。

#AIGC
【DL】模型微调方法总结

方法核心动作更新参数比例硬件需求逻辑深度核心适用场景FFT全量更新100%极高改变底层表征重大领域迁移、从头学习新模态GaLore低秩梯度全量更新100%中改变底层表征消费级显卡做全量微调LoRA旁路低秩矩阵叠加< 1%低任务适配通用 LLM 微调、生成模型风格化DoRA权重幅值/方向解耦< 1%低任务适配对精度要求极高的微调ControlNet复制编码器+零卷积~30% - 40%中高结构化控制

#人工智能#机器学习
【DL】LoRA

利用 NVIDIA 统一内存机制,当 GPU 显存不足时,将优化器状态(如 Adam 的一阶、二阶矩)自动分页到 CPU 内存,防止显存溢出,使单张消费级 GPU 微调 70B 参数模型成为可能。预训练模型的权重近似服从正态分布,NF4 通过信息论最优的分位点划分来设计量化区间,使量化误差相比普通 INT4 更小,是专为正态分布权重设计的数据类型。在输入序列前拼接可学习的前缀 token,推理时必

#人工智能
【ML】transformer

可以理解为一种**可微分的软寻址(soft lookup)**机制:用 Query 与所有 Key 计算相似度,得到归一化的注意力权重,再对 Value 做加权求和。是对称矩阵,严重限制了注意力矩阵的表达能力("我关注你"和"你关注我"将是相同的权重)。:不同的 head 可以在不同的表示子空间中分别关注不同类型的信息(如语法依存关系、指代关系、语义相似性等),增强了模型的表达能力。较大时(如 6

#transformer#深度学习#人工智能
【ML】位置编码

方法参数量长度外推相对位置感知典型模型无有限间接原始 TransformerLearned PE有✗无少量有限✓RoPE无较好✓ALiBi无✓ 最强✓BLOOM, MPT原写法修改后原因\sin\!\left(\sin\left(负空格 CSDN 不支持\top部分版本不渲染CSDN 不支持\,在部分公式中导致异常d_{model}下标中嵌套\text易出错。

#人工智能
常见损失函数

在深度学习中,损失函数(Loss Function)是用来衡量模型预测值与真实标签之间差异的函数。模型训练的核心目标就是通过反向传播算法(Backpropagation)和优化器(Optimizer)来。以及针对特定问题的。以下是常见损失函数的总结,以及基于 PyTorch 的代码实现(包含官方 API 调用和底层数学计算实现)。

#人工智能
CLIP SigLIP

是 OpenAI 于 2021 年提出的一种基于对比学习的多模态预训练模型。架构:采用双塔结构(Dual-encoder),即一个图像编码器(如 ViT 或 ResNet)和一个文本编码器(如 Transformer)。核心机制:通过海量的“图像-文本对”进行预训练。在训练时,它将一个 Batch 内的NNN张图像和NNN段文本分别编码成特征向量,并计算它们两两之间的余弦相似度,形成一个N×NN

#人工智能
    共 30 条
  • 1
  • 2
  • 3
  • 请选择