logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大模型运维:vLLM高并发场景的运维技巧

针对glm4.6 模型和潜在的 200 万用户访问(假设的)场景

#运维
深入解析强化学习中的 Generalized Advantage Estimation (GAE)

This blog post illustrates the importance of GAE in reinforcement learning, along with its implementation and impact on training stability. By leveraging GAE, algorithms like PPO achieve superior perf

文章图片
#人工智能
REINFORCE++:强化学习从人类反馈(RLHF)的简洁高效新选择

本文将深入介绍 REINFORCE++ 的核心思想、算法细节、与 PPO 的区别,以及其在 RLHF 背景下的优势和意义,特别针对疑问“REINFORCE++ 和 PPO 的区别是什么?不就是把 advantage 换了?”进行详细解答。通过数学公式、直观解释和专业洞见,帮助读者深刻理解这一算法。

文章图片
#人工智能#深度学习#自然语言处理 +1
深度强化学习(王树森)笔记10

连续控制:确定策略网络DPG,TD3,随机高斯策略

深度强化学习(王树森)笔记02

介绍价值学习,深度Q网络(DQN)和时间差分(TD)算法

    共 441 条
  • 1
  • 2
  • 3
  • 45
  • 请选择