logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大模型后训练全解:SFT、RLHF/PPO、DPO 的原理、实践与选择

本文系统介绍了大语言模型后训练(Post-Training)的核心技术,包括SFT监督微调、RLHF强化学习对齐和DPO直接偏好优化。SFT通过高质量指令-回答对训练模型遵循指令;RLHF利用人类偏好数据训练奖励模型,通过PPO算法优化模型输出;DPO则简化了RLHF流程,直接优化偏好对差异。文章还介绍了DeepSeek-R1提出的GRPO新范式,特别适用于可验证推理任务。针对不同应用场景,作者提

文章图片
#人工智能
大模型后训练全解:SFT、RLHF/PPO、DPO 的原理、实践与选择

本文系统介绍了大语言模型后训练(Post-Training)的核心技术,包括SFT监督微调、RLHF强化学习对齐和DPO直接偏好优化。SFT通过高质量指令-回答对训练模型遵循指令;RLHF利用人类偏好数据训练奖励模型,通过PPO算法优化模型输出;DPO则简化了RLHF流程,直接优化偏好对差异。文章还介绍了DeepSeek-R1提出的GRPO新范式,特别适用于可验证推理任务。针对不同应用场景,作者提

文章图片
#人工智能
变分自编码器(VAE)原理应用完整指南

本文系统介绍了变分自编码器(VAE)的理论框架与实现细节。首先从普通自编码器的局限性出发,指出其潜空间缺乏结构性;随后引入概率视角,通过变分推断推导出证据下界(ELBO)目标函数,分解为重建项和正则项;详细讲解了VAE的神经网络实现,包括重参数化技巧和KL散度的解析解;最后分析了VAE生成图像模糊的原因。文章完整呈现了从基础自编码器到现代VAE的理论演进,为理解其在生成模型中的应用奠定基础。

文章图片
#深度学习
模型剪枝方法全解

文章摘要:本文系统梳理了神经网络剪枝技术的完整脉络。首先指出过参数化现象是剪枝的动机,解释了经典三阶段剪枝流程(训练-剪枝-微调)。详细对比了非结构化剪枝(细粒度但硬件不友好)和结构化剪枝(硬件友好但粒度粗)的优缺点,介绍了NVIDIA 2:4稀疏方案。重点讨论了重要性判据(幅值、梯度、激活值等)和剪枝时机(训练后/中/初始化)。针对LLM时代的新挑战,深入分析了SparseGPT(二阶补偿)和W

文章图片
#剪枝#算法#机器学习 +3
第 03 篇:自动微分不神秘——梯度是怎么流动的

不用复杂的模型,就用最简单的手写线性回归:输入一个数,输出一个数,一个权重,一个偏置。但我们会把这个过程拆解到足够细,让你看清楚每一步背后发生了什么。

文章图片
#pytorch#深度学习
第 02 篇:Tensor 是一切的基础——维度变换完全指南

本文系统介绍了PyTorch中的Tensor维度变换操作,这是理解深度学习模型实现的关键。

#人工智能#深度学习#自然语言处理 +1
大模型低精度量化详细原理指南(Quantization)

摘要 大模型量化技术通过降低参数精度(如FP32→INT4)大幅减少内存占用(70B模型从280GB压缩到35GB),使大模型能在消费级硬件上运行。量化核心机制包括对称/非对称映射、异常值截断和校准优化。

文章图片
#深度学习#自然语言处理#人工智能
大模型低精度量化详细原理指南(Quantization)

摘要 大模型量化技术通过降低参数精度(如FP32→INT4)大幅减少内存占用(70B模型从280GB压缩到35GB),使大模型能在消费级硬件上运行。量化核心机制包括对称/非对称映射、异常值截断和校准优化。

文章图片
#深度学习#自然语言处理#人工智能
LLaVA1.5:用三个小改动在 11 个 benchmark 上刷新 SOTA

LLaVA-1.5通过四个关键改进显著提升了视觉指令调优模型的性能。

文章图片
#人工智能#深度学习#计算机视觉 +1
LLaVA 详解:如何构建一个高性能视觉助手

如果说,一个能和你对话、理解图片、做复杂视觉推理的多模态大模型,训练只需要 8 张 A100,全程不到 15 个小时,你可能会觉得这是在夸大。但 LLaVA 确实做到了这件事——而且它的架构简单到有些令人意外:一个冻住的 CLIP ViT、一个可以微调的 Vicuna LLM、以及中间一个窄小的线性投影矩阵。

文章图片
#人工智能
    共 19 条
  • 1
  • 2
  • 请选择