logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

强化学习(RLVR)真的能提升大语言模型的推理能力吗?——解读最新研究

Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?

文章图片
#语言模型#人工智能#自然语言处理
DeepSearch:通过蒙特卡罗树搜索克服可验证奖励强化学习的瓶颈

DeepSearch: Overcome the Bottleneck of Reinforcement Learning with Verifiable Rewards via Monte Carlo Tree Search

文章图片
#人工智能#深度学习#机器学习
详解 Python 中的json.loads和json.dumps方法:中英双语

json.loads: Parses a JSON string into a Python data structure.json.dumps: Serializes a Python data structure into a JSON string.

#python#json#microsoft
深度强化学习(王树森)笔记02

介绍价值学习,深度Q网络(DQN)和时间差分(TD)算法

    共 520 条
  • 1
  • 2
  • 3
  • 52
  • 请选择