QinZheng7575 个人主页

@QinZheng7575

QinZheng7575

2022-11-25 16:55:48 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

【CleanRL】强化学习SAC进阶——离散动作实现与数学原理

本文介绍了离散动作空间下SAC（Soft Actor-Critic）算法的实现要点。与连续版本不同，离散SAC需要让策略输出所有动作的概率分布，并通过加权求和直接计算期望值。

#python #深度学习 #神经网络

【torch安装踩雷】torchtext、torch、anaconda安装问题解决

最近因为寒假即将结束，也要继续毕设的工作了，但是在回归pytorch学习的时候，遇到很大问题，烦了我挺长一段时间，终于解决。由于《动手学深度学习Pytorch》一书中需要torchtext包，围绕着这个包的安装，我踩了不少雷。但是在这解决问题们的过程中，获得了很多知识，收纳下来吧。torchtext安装问题现有的很多博客的教程都有很大问题！如果直接用pip install torchtext，会给

#pytorch #深度学习 #神经网络 +2

强化学习学习（三）收敛性证明与DDPG

强化学习大多数不是理论收敛的，本文就给出了原因和证明思路。接着我们讨论Double Q-Learning和在连续动作下的强化学习DDPG

#学习 #机器学习 #人工智能 +4

【CleanRL】强化学习SAC代码实现与原理详解

SAC（Soft Actor-Critic）算法是一种基于熵最大化的Off-Policy Actor-Critic方法，擅长处理连续动作空间问题。其核心思想是通过最大化策略的随机性来鼓励探索，避免局部最优。算法使用两个Critic网络（SoftQNetwork）实现Clipped Double-Q Learning，并通过Actor网络输出动作的概率分布。

#python #深度学习 #人工智能

强化学习学习（三）收敛性证明与DDPG

强化学习大多数不是理论收敛的，本文就给出了原因和证明思路。接着我们讨论Double Q-Learning和在连续动作下的强化学习DDPG

#学习 #机器学习 #人工智能 +4

强化学习学习（四）Model-Based Reinforcement Learning 从原理到改进分析

基于模型的强化学习，介绍原理，并且后面介绍隐式的，基于部分可观测的MDP的强化学习

#pytorch #机器学习 #人工智能 +4

联邦学习看了论文之后的小展望（11.21）

typora-copy-images-to: …\MD_note\images目前整理新看的一些论文：动态分簇《Adaptive Client Selection in Resource Constrained Federated Learning Systems: A Deep Reinforcement Learning Approach》这篇文章核心思想：你不知道哪些设备可能没能力去参与运算

#深度学习 #人工智能 #pytorch +1

【联邦学习】联邦学习的量化传输仿真（一）

量化改进的联邦学习，采用pysyft为联邦基础框架。重点在于探讨量化再实际通信场景下的对联邦学习效率的影响。

#python #人工智能 #深度学习 +1

强化学习学习（三）收敛性证明与DDPG

强化学习大多数不是理论收敛的，本文就给出了原因和证明思路。接着我们讨论Double Q-Learning和在连续动作下的强化学习DDPG

#学习 #机器学习 #人工智能 +4

python多线程/进程问题：以iperf3为例与测试平台解析

在给一个项目写可视化的时候，项目需要用iperf3来进行网络测试。遇到了subprocess与多线程问题，后来解决

#python

共 17 条

请选择