
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
强化学习从入门到深入理解
近期deepseek在网上的新闻是满天飞,其中deepseek一个较大的特点就是实现了大规模稳定的强化学习训练,并且取得了较好的效果,使得模型出现理解能力的涌现。deepseek r1技术报告解读综合比较网上视频、各类网络资源,整理出一套相对通俗的理解方式,希望可以帮助大家更加深入的理解什么是强化学习,并且结合一定的代码帮助理解。本问主要还是理论层面的理解,但是我会尽量以通俗的方式讲解。

到底了







