logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

KL散度近似方法介绍:从John Schulman的博客到DeepSeek GRPO的应用

John Schulman在其2020年3月7日的博客中详细探讨了如何通过蒙特卡洛方法近似KL散度,并提出了一种低方差、无偏的估计器。这一方法不仅在理论上具有重要意义,还被DeepSeek的GRPO算法所采用。

文章图片
#机器学习#深度学习#人工智能 +1
U-ViT:基于Vision Transformer的扩散模型骨干网络核心解析

U-ViT的核心设计理念是将ViT的灵活性与扩散模型的需求相结合,同时借鉴U-Net的长跳跃连接(long skip connections),以适应图像生成的像素级预测任务。

文章图片
#transformer#网络#深度学习 +3
跟TED演讲学英文:Entertainment is getting an AI upgrade by Kylan Gibbs

Evolving nature of storytelling with the advent of AI agents

文章图片
#人工智能
深度解析DeepSeek原论文中的 GRPO:带 clip 操作的完整公式与示例代码

它在 PPO 的基础上进行修改,一方面去掉了价值函数(value function),另一方面利用同一道题上一次性采样多条回答(相同 prompt)来做相对奖励(Relative Reward)。

#机器学习#人工智能#pytorch
字节DAPO算法:改进DeepSeek的GRPO算法-解锁大规模LLM强化学习的新篇章(代码实现)

本篇博客将为熟悉PPO和GRPO的深度学习与强化学习研究者详细介绍DAPO的创新点及其数学基础。

文章图片
#算法#transformer#深度学习 +2
DeepSeek-R1:冷启动下的强化学习之旅(代码实现)

在追求大语言模型(LLM)推理能力的道路上,DeepSeek 团队推出了 DeepSeek-R1-Zero,一个完全通过纯强化学习(RL)训练的模型,展现了令人惊叹的推理能力。然而,它的局限性(如可读性差和语言混合)促使团队进一步探索,最终开发出更强大的 DeepSeek-R1。本文将总结 DeepSeek-R1 的训练过程,重点介绍其“冷启动 + 强化学习”的创新 pipeline,带你走进这场

#人工智能#机器学习#pytorch
DeepSeek-R1-Zero 的训练过程:pytorch代码实现

DeepSeek-R1-Zero 的训练过程是基于纯强化学习(Reinforcement Learning, RL)的方法,不依赖监督微调(Supervised Fine-Tuning, SFT)作为预备步骤。

#pytorch#机器学习#人工智能 +1
如何在 DeepSpeed 中开启梯度检查点(gradient checkpointing):中英双语介绍

Gradient checkpointing in DeepSpeed is a technique designed to reduce memory usage when training large models by storing only a subset of intermediate activations during the forward pass.

#人工智能#深度学习#机器学习
    共 67 条
  • 1
  • 2
  • 3
  • 7
  • 请选择