
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
R1-Zero 证明了纯 RL 可以训出推理能力。但一个能推理的模型,离一个能交给用户正常使用的模型,中间还有好几道坎。第一道坎是语言。基座模型 DeepSeek-V3 是在中英文混合数据上预训练的,R1-Zero 做推理的时候经常中英文乱窜——前一句还是英文的数学推导,后一句变成了中文感叹。如果你用中文提问,它可能用英文推理;用英文提问,它又可能给你塞几句中文。对普通用户来说,这种体验很差。第二
上一篇文章提到,DeepSeek-R1-Zero 没有用传统的 PPO 算法,而是用了一种叫的算法。要理解 GRPO 为什么被选中,得先搞清楚 PPO 在训练大模型时到底有什么问题。
上一篇文章提到,DeepSeek-R1-Zero 没有用传统的 PPO 算法,而是用了一种叫的算法。要理解 GRPO 为什么被选中,得先搞清楚 PPO 在训练大模型时到底有什么问题。
本文解析了DeepSeek团队开发的纯强化学习大模型DeepSeek-R1-Zero的创新技术。该模型突破性地跳过了传统的监督微调(SFT)阶段,直接从预训练基座模型出发,通过强化学习训练推理能力。其核心在于GRPO算法和规则奖励机制:通过组内答案比较取代价值模型,仅用最终答案正确性作为奖励信号。研究发现,在训练过程中模型自发形成了"反思"行为,并主动延长思考步骤,最终在数学、编程等任务上达到超越
本文解析了DeepSeek团队开发的纯强化学习大模型DeepSeek-R1-Zero的创新技术。该模型突破性地跳过了传统的监督微调(SFT)阶段,直接从预训练基座模型出发,通过强化学习训练推理能力。其核心在于GRPO算法和规则奖励机制:通过组内答案比较取代价值模型,仅用最终答案正确性作为奖励信号。研究发现,在训练过程中模型自发形成了"反思"行为,并主动延长思考步骤,最终在数学、编程等任务上达到超越
本文解析了DeepSeek团队开发的纯强化学习大模型DeepSeek-R1-Zero的创新技术。该模型突破性地跳过了传统的监督微调(SFT)阶段,直接从预训练基座模型出发,通过强化学习训练推理能力。其核心在于GRPO算法和规则奖励机制:通过组内答案比较取代价值模型,仅用最终答案正确性作为奖励信号。研究发现,在训练过程中模型自发形成了"反思"行为,并主动延长思考步骤,最终在数学、编程等任务上达到超越







