
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
大模型运维:vLLM高并发场景的运维技巧
针对glm4.6 模型和潜在的 200 万用户访问(假设的)场景
深入解析强化学习中的 Generalized Advantage Estimation (GAE)
This blog post illustrates the importance of GAE in reinforcement learning, along with its implementation and impact on training stability. By leveraging GAE, algorithms like PPO achieve superior perf

REINFORCE++:强化学习从人类反馈(RLHF)的简洁高效新选择
本文将深入介绍 REINFORCE++ 的核心思想、算法细节、与 PPO 的区别,以及其在 RLHF 背景下的优势和意义,特别针对疑问“REINFORCE++ 和 PPO 的区别是什么?不就是把 advantage 换了?”进行详细解答。通过数学公式、直观解释和专业洞见,帮助读者深刻理解这一算法。

汤家凤高等数学基础手写笔记-导数与微分
基础知识
汤家凤高等数学基础手写笔记-无穷级数
基础知识
深度强化学习(王树森)笔记10
连续控制:确定策略网络DPG,TD3,随机高斯策略
汤家凤高等数学基础手写笔记-定积分
基础知识
深度强化学习(王树森)笔记02
介绍价值学习,深度Q网络(DQN)和时间差分(TD)算法