logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大模型量化&对称量化&非对称量化&动态量化&静态量化&QLoRA 4bit量化

本文系统介绍了神经网络模型量化的原理与方法。首先阐述了量化的必要性,包括减少显存占用、提升计算速度等优势。详细讲解了对称量化和非对称量化的实现方式及差异,并演示了量化矩阵的计算过程。随后介绍了三种量化应用方案:训练后动态量化、静态量化以及量化感知训练,分析各自的优缺点。特别针对大模型提出了LLM.int8方法,通过分离处理异常特征解决传统量化精度下降问题。最后展示了HuggingFace中的实现方

文章图片
#人工智能#算法#机器学习
DDPM详细解析&直观理解

本文系统介绍了去噪扩散概率模型(DDPM)的原理与数学推导。DDPM通过正向加噪和反向去噪两个过程实现高质量图像生成:正向过程逐步添加噪声,将图像转化为标准正态分布;反向过程训练神经网络学习去噪。关键创新点包括:1)设计加噪系数使任意时刻噪声可直接计算;2)通过贝叶斯公式推导出反向去噪的目标分布;3)将去噪任务转化为噪声预测问题。数学推导表明,模型需要拟合给定x_t条件下x_{t-1}的分布,最终

文章图片
#人工智能#机器学习#算法
VAE变分自编码器&VAE Loss&基础数学知识

本文系统介绍了变分自编码器(VAE)的理论基础和实现方法。首先复习了凸函数定义、Jensen不等式和KL散度等数学知识,为理解VAE奠定理论基础。然后分析了自编码器在生成任务中的局限性,提出VAE通过引入概率分布解决该问题:编码器输出正态分布的均值和方差,而非确定点,并通过重参数化技巧实现反向传播。推导了VAE的损失函数,包含重建损失和KL散度损失两项,前者保证生成质量,后者使隐变量分布接近标准正

文章图片
#算法#机器学习#人工智能
DINOV1~3全系列讲解

本文系统介绍了DINO系列自监督视觉模型的技术演进。DINOv1通过教师-学生网络架构,利用动量更新、中心化和锐化技术防止模型坍塌,在ViT上实现了优异的特征提取能力。DINOv2引入SK居中、KoLeo损失和MIM损失,提升了模型鲁棒性,并优化了训练效率。DINOv3通过Gram Anchoring技术解决了局部特征退化问题,采用分层数据采样策略平衡多样性与实用性,最终训练出70亿参数的通用视觉

文章图片
#计算机视觉#transformer
GPT1&BERT&ViT三种模型解析

本文系统解析了三大基础模型架构:GPT-1、BERT和ViT。GPT-1开创性地采用"预训练+微调"范式,通过Transformer解码器架构和自回归语言模型任务,在12个NLP任务中9个刷新记录。BERT引入双向注意力机制,通过遮蔽语言模型和下一句预测任务,在11项NLP任务上取得突破性进展。ViT首次将Transformer完整应用于计算机视觉领域,证明在大规模数据集上Tr

文章图片
#人工智能#深度学习#计算机视觉
DeepSeek-GRPO推导&DeepSeekMathV2模型讲解

本文系统介绍了GRPO算法及其在DeepSeekMathV2模型中的应用。GRPO是针对大语言模型优化的强化学习算法,通过将整个回答序列视为整体动作,利用回答间相对优势值替代PPO中的GAE优势函数,避免了训练状态价值网络,更适合大模型生成场景。DeepSeekMathV2创新性地构建了可自我验证的数学推理模型,通过生成器与验证器的协同训练机制:先训练基础验证器,再构建元验证器提升验证质量,最终训

文章图片
#DeepSeek
预训练&SFT&PPO训练大模型

本文系统介绍了大语言模型(LLM)的训练方法,主要包括三个关键环节:预训练、监督微调(SFT)和强化学习(PPO)。在预训练部分,详细讲解了从零训练和使用预训练模型两种方式,以及核心训练代码实现;在SFT环节,重点阐述了对话模板(Chat Template)、仅计算回答部分损失(Completions Only)和嵌入噪声(NEFT)三大技巧;最后深入解析了PPO强化学习训练,包括奖励模型训练、四

文章图片
#深度学习
强化学习RLHF&DPO推导

本文介绍了基于人类反馈的强化学习(RLHF)及其优化方法DPO。RLHF通过监督微调、奖励模型训练和强化学习优化三个步骤使模型学习人类偏好,其中PPO算法通过"裁剪"机制保证稳定性。针对RLHF流程复杂的问题,DPO提出革命性改进:发现语言模型策略与人类偏好间存在直接数学关系,将奖励模型训练和强化学习优化合并为单一监督学习问题。文章详细推导了DPO算法,包括奖励模型的极大似然估

文章图片
#人工智能
交叉熵损失&大模型可调节参数&LoRA

本文主要介绍了三个深度学习中的重要概念:1.交叉熵损失函数:从极大似然估计和信息论两个角度解释其原理,说明其作为分类任务损失函数的合理性;2.大模型生成参数:详细解析了top-k、top-p、temperature等参数的作用机制和协同应用顺序,以及beam search算法的实现原理;3.LoRA微调技术:阐述了其通过低秩分解减少训练参数量的原理,分析了rank和alpha参数的作用,并总结了该

文章图片
#深度学习#LoRA
Transformer&Attention详解(一定有帮助)

本文系统梳理了Transformer架构中的核心组件——Attention机制的来龙去脉。文章首先指出RNN处理文本时的两大缺陷:遗忘问题和重要性判断不足,进而引出Attention通过引入编码器-解码器结构解决这些问题。重点解析了Transformer的三大部分:Embedding+位置编码、编码器(含多头注意力机制)和解码器(带掩码机制)。详细阐述了QKV向量的计算逻辑、注意力分数的生成过程,

文章图片
#transformer#rnn
    共 12 条
  • 1
  • 2
  • 请选择