
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
强化学习、PPO和GRPO算法之间的关系
强化学习和监督学习是机器学习中的两种不同的学习范式,强化学习让智能体通过与环境的交互,学习到一个最优策略,以最大化长期累积奖励,如下图在这里引入了几个关键参数:状态(State:表示当前的状态行动(Action:表示下一步操作奖励(Reward:根据行动导致环境改变,由规则给出的评分智能体(Agent):执行行动的主体(如机器人、游戏 AI 等)环境(Environment):智能体所处的外部场景
强化学习、PPO和GRPO算法之间的关系
强化学习和监督学习是机器学习中的两种不同的学习范式,强化学习让智能体通过与环境的交互,学习到一个最优策略,以最大化长期累积奖励,如下图在这里引入了几个关键参数:状态(State:表示当前的状态行动(Action:表示下一步操作奖励(Reward:根据行动导致环境改变,由规则给出的评分智能体(Agent):执行行动的主体(如机器人、游戏 AI 等)环境(Environment):智能体所处的外部场景
大模型学习—总结LLM模型结构上的变化
multi-head在注意力机制中multi-head是将Q、K、V三者使用view将张量拆分为多个head,分别进行self-attention最后再将结果合并,这种方法使的。
到底了







