仄言135 个人主页

@qq_60714765

仄言135

2024-03-19 15:58:14 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

一文读懂PPO算法

在深入PPO之前，我们必须先理解强化学习 (Reinforcement Learning, RL) 的基本框架。想象一个智能体 (Agent)（比如一个游戏角色或机器人）在一个环境 (Environment)中（比如一个游戏关卡或现实世界）。状态 (State)：智能体首先观察环境，获得一个状态 (State)或观察 (Observation)。动作 (Action)：基于这个状态，智能体从它所有

#算法

一文读懂PPO算法

#算法

到底了