
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
John Schulman在其2020年3月7日的博客中详细探讨了如何通过蒙特卡洛方法近似KL散度,并提出了一种低方差、无偏的估计器。这一方法不仅在理论上具有重要意义,还被DeepSeek的GRPO算法所采用。

U-ViT的核心设计理念是将ViT的灵活性与扩散模型的需求相结合,同时借鉴U-Net的长跳跃连接(long skip connections),以适应图像生成的像素级预测任务。

Evolving nature of storytelling with the advent of AI agents

它在 PPO 的基础上进行修改,一方面去掉了价值函数(value function),另一方面利用同一道题上一次性采样多条回答(相同 prompt)来做相对奖励(Relative Reward)。
dataset = load_dataset(dataset_path, data_files=selected_files)
本篇博客将为熟悉PPO和GRPO的深度学习与强化学习研究者详细介绍DAPO的创新点及其数学基础。

CrewAI for multi agents

在追求大语言模型(LLM)推理能力的道路上,DeepSeek 团队推出了 DeepSeek-R1-Zero,一个完全通过纯强化学习(RL)训练的模型,展现了令人惊叹的推理能力。然而,它的局限性(如可读性差和语言混合)促使团队进一步探索,最终开发出更强大的 DeepSeek-R1。本文将总结 DeepSeek-R1 的训练过程,重点介绍其“冷启动 + 强化学习”的创新 pipeline,带你走进这场
DeepSeek-R1-Zero 的训练过程是基于纯强化学习(Reinforcement Learning, RL)的方法,不依赖监督微调(Supervised Fine-Tuning, SFT)作为预备步骤。
Gradient checkpointing in DeepSpeed is a technique designed to reduce memory usage when training large models by storing only a subset of intermediate activations during the forward pass.