
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
强化学习(RLVR)真的能提升大语言模型的推理能力吗?——解读最新研究
Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?

ByteDance Seed团队提出VAPO:高效解决长链推理任务的强化学习框架
VAPO(Value-based Augmented Proximal Policy Optimization)

DeepSearch:通过蒙特卡罗树搜索克服可验证奖励强化学习的瓶颈
DeepSearch: Overcome the Bottleneck of Reinforcement Learning with Verifiable Rewards via Monte Carlo Tree Search

python图像处理《数字图像处理与python实现》读书笔记
记录知识,形成体系
详解 Python 中的json.loads和json.dumps方法:中英双语
json.loads: Parses a JSON string into a Python data structure.json.dumps: Serializes a Python data structure into a JSON string.
深度强化学习(王树森)笔记02
介绍价值学习,深度Q网络(DQN)和时间差分(TD)算法
汤家凤高等数学基础手写笔记-导数与微分
基础知识
汤家凤高等数学基础手写笔记-无穷级数
基础知识
汤家凤高等数学基础手写笔记-定积分
基础知识
汤家凤高等数学基础手写笔记-不定积分
基础知识







