ai玄学个人主页

@2301_77000722

ai玄学

2026-06-17 21:10:29 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

DeepSeek-R1 技术解析（三）：从 R1-Zero 到 R1，多阶段训练管线拆解

R1-Zero 证明了纯 RL 可以训出推理能力。但一个能推理的模型，离一个能交给用户正常使用的模型，中间还有好几道坎。第一道坎是语言。基座模型 DeepSeek-V3 是在中英文混合数据上预训练的，R1-Zero 做推理的时候经常中英文乱窜——前一句还是英文的数学推导，后一句变成了中文感叹。如果你用中文提问，它可能用英文推理；用英文提问，它又可能给你塞几句中文。对普通用户来说，这种体验很差。第二

#人工智能 #神经网络 #网络 +1

DeepSeek-R1 技术解析（二）：GRPO 算法是怎么工作的，以及 R1-Zero 的自我进化

上一篇文章提到，DeepSeek-R1-Zero 没有用传统的 PPO 算法，而是用了一种叫的算法。要理解 GRPO 为什么被选中，得先搞清楚 PPO 在训练大模型时到底有什么问题。

#算法 #人工智能 #神经网络

DeepSeek-R1 技术解析（二）：GRPO 算法是怎么工作的，以及 R1-Zero 的自我进化

#算法 #人工智能 #神经网络

DeepSeek-R1 技术解析

本文解析了DeepSeek团队开发的纯强化学习大模型DeepSeek-R1-Zero的创新技术。该模型突破性地跳过了传统的监督微调(SFT)阶段，直接从预训练基座模型出发，通过强化学习训练推理能力。其核心在于GRPO算法和规则奖励机制：通过组内答案比较取代价值模型，仅用最终答案正确性作为奖励信号。研究发现，在训练过程中模型自发形成了"反思"行为，并主动延长思考步骤，最终在数学、编程等任务上达到超越

到底了