简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
强化学习之SAC(soft actor-critic)算法PPO算法是目前最主流的DRL算法,但是PPO是一种on-policy算法,存在sample inefficiency的缺点,需要巨量的采样才能学习。DDPG及其拓展是面向连续控制的off-policy的算法,相对于PPO来说更sample efficient,但是它存在对其超参数敏感,收敛效果差的问题。SAC算法是面向最大熵强化学习开发的
Mobility-Aware Edge Caching and Computing inVehicle Networks: A Deep Reinforcement Learning一、文中解决了什么问题?文中研究了联合通信、缓存和计算的设计问题,以实现车辆网络的运行优化和成本收益优化。在此基础上考虑了车辆的流动性和硬性服务期限约束,对资源分配的优化问题进行了研究。二、问题是怎么解决的?开...
论文笔记此篇博文用于记录阅读一些论文之后所得。Computation Offloading in Multi-access Edge Computing using Deep Sequential Model based on Reinforcement Learning一、论文解决了什么问题?由于MEC卸载问题是NP-hard的,现有的卸载策略研究大多都基于启发式算法,但随着MEC应用和...
强化学习之PPO(Proximal Policy Optimization Algorithms)算法PPO算法提出了新的目标函数可以再多个训练步骤实现小批量的更新,解决了策略梯度算法中步长难以确定的问题。如果步长太小,训练时间就会过长。如果步长过大,有用信息会被噪音掩盖(因为每个数据影响都很大),或者令性能灾难性的下降,难以收敛。on-policy与off-policy的区别...
强化学习之PPO(Proximal Policy Optimization Algorithms)算法PPO算法提出了新的目标函数可以再多个训练步骤实现小批量的更新,解决了策略梯度算法中步长难以确定的问题。如果步长太小,训练时间就会过长。如果步长过大,有用信息会被噪音掩盖(因为每个数据影响都很大),或者令性能灾难性的下降,难以收敛。on-policy与off-policy的区别...
强化学习之SAC(soft actor-critic)算法PPO算法是目前最主流的DRL算法,但是PPO是一种on-policy算法,存在sample inefficiency的缺点,需要巨量的采样才能学习。DDPG及其拓展是面向连续控制的off-policy的算法,相对于PPO来说更sample efficient,但是它存在对其超参数敏感,收敛效果差的问题。SAC算法是面向最大熵强化学习开发的