logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【CleanRL】强化学习SAC进阶——离散动作实现与数学原理

本文介绍了离散动作空间下SAC(Soft Actor-Critic)算法的实现要点。与连续版本不同,离散SAC需要让策略输出所有动作的概率分布,并通过加权求和直接计算期望值。

#python#深度学习#神经网络
【torch安装踩雷】torchtext、torch、anaconda安装问题解决

最近因为寒假即将结束,也要继续毕设的工作了,但是在回归pytorch学习的时候,遇到很大问题,烦了我挺长一段时间,终于解决。由于《动手学深度学习Pytorch》一书中需要torchtext包,围绕着这个包的安装,我踩了不少雷。但是在这解决问题们的过程中,获得了很多知识,收纳下来吧。torchtext安装问题现有的很多博客的教程都有很大问题!如果直接用pip install torchtext,会给

#pytorch#深度学习#神经网络 +2
强化学习学习(三)收敛性证明与DDPG

强化学习大多数不是理论收敛的,本文就给出了原因和证明思路。接着我们讨论Double Q-Learning和在连续动作下的强化学习DDPG

文章图片
#学习#机器学习#人工智能 +4
【CleanRL】强化学习SAC代码实现与原理详解

SAC(Soft Actor-Critic)算法是一种基于熵最大化的Off-Policy Actor-Critic方法,擅长处理连续动作空间问题。其核心思想是通过最大化策略的随机性来鼓励探索,避免局部最优。算法使用两个Critic网络(SoftQNetwork)实现Clipped Double-Q Learning,并通过Actor网络输出动作的概率分布。

文章图片
#python#深度学习#人工智能
强化学习学习(三)收敛性证明与DDPG

强化学习大多数不是理论收敛的,本文就给出了原因和证明思路。接着我们讨论Double Q-Learning和在连续动作下的强化学习DDPG

文章图片
#学习#机器学习#人工智能 +4
强化学习学习(四)Model-Based Reinforcement Learning 从原理到改进分析

基于模型的强化学习,介绍原理,并且后面介绍隐式的,基于部分可观测的MDP的强化学习

文章图片
#pytorch#机器学习#人工智能 +4
联邦学习看了论文之后的小展望(11.21)

typora-copy-images-to: …\MD_note\images目前整理新看的一些论文:动态分簇《Adaptive Client Selection in Resource Constrained Federated Learning Systems: A Deep Reinforcement Learning Approach》这篇文章核心思想:你不知道哪些设备可能没能力去参与运算

#深度学习#人工智能#pytorch +1
【联邦学习】联邦学习的量化传输仿真(一)

量化改进的联邦学习,采用pysyft为联邦基础框架。重点在于探讨量化再实际通信场景下的对联邦学习效率的影响。

#python#人工智能#深度学习 +1
强化学习学习(三)收敛性证明与DDPG

强化学习大多数不是理论收敛的,本文就给出了原因和证明思路。接着我们讨论Double Q-Learning和在连续动作下的强化学习DDPG

文章图片
#学习#机器学习#人工智能 +4
python多线程/进程问题:以iperf3为例与测试平台解析

在给一个项目写可视化的时候,项目需要用iperf3来进行网络测试。遇到了subprocess与多线程问题,后来解决

#python
    共 17 条
  • 1
  • 2
  • 请选择