logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

强化学习从入门到深入理解

近期deepseek在网上的新闻是满天飞,其中deepseek一个较大的特点就是实现了大规模稳定的强化学习训练,并且取得了较好的效果,使得模型出现理解能力的涌现。deepseek r1技术报告解读综合比较网上视频、各类网络资源,整理出一套相对通俗的理解方式,希望可以帮助大家更加深入的理解什么是强化学习,并且结合一定的代码帮助理解。本问主要还是理论层面的理解,但是我会尽量以通俗的方式讲解。

文章图片
#人工智能#算法
到底了