
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
文章目录前言is,==,cmp的区别is==cmp多进程中的小bug前言之前没有区分过is和==,今天多进程遇到一个bug,单进程没问题,经过一番盘查发现竟然是判断字符串方式出了问题,触及了知识盲区,记录一下。is,==,cmp的区别ispython中的 is 用来判断是否是同一个对象,也就是说is是来判断两个变量的地址引用是否相同,相同的话返回true,表示这两个变量的内存ID是相同的(查内存地
有时候需要label,比如强化学习的离散动作空间,输出动作索引;有时候需要one-hot,比如训练数据或者输入上一个状态的动作,简单的互相转换还是重要的。通过快速生成:one-hot 转labelnumpy可以通过实现,pytorch 可以通过实现:...
有时候需要label,比如强化学习的离散动作空间,输出动作索引;有时候需要one-hot,比如训练数据或者输入上一个状态的动作,简单的互相转换还是重要的。通过快速生成:one-hot 转labelnumpy可以通过实现,pytorch 可以通过实现:...
文章目录前言正文Value Functions as Vectors贝尔曼算子Bπ,B∗\bf{B}_{\pi},\bf{B}_{*}Bπ,B∗Contraction and Monotonicity of Operators前言贝尔曼方程和算子算是RL的基础了,偶然间看到有人总结这个slides的内容,但其实不易懂,排版也看不习惯,我觉得还是要自己整理一下,另一个人的可以参考这里。会涉及贝尔
文章目录前言正文前言装tensorflow 2.3的时候遇到了一些问题,记录一下正文问题:DECODER_ERROR_CLASSES += (brotli.error,) AttributeError: module 'brotli' has no attribute 'error'解决:首先将 Anaconda3\envs\xxx\Lib\site-packages\urllib3\respon
文章目录前言第9章 计算广告技术概览前言本部分主要面向系统工程师、算法工程师和架构师,重点阐释实现各种广告产品的关键技术挑战,并提供基础的解决方案。第9章 计算广告技术概览
文章目录前言正文torchMARLCorresponding PapersInstallationUsageResults3m5m_vs_6m前言之前因为一直没有实现Weighted QMIX,感觉公开的意义不大,所以就没写博客介绍。现在已基本复现了效果,受制于计算资源,没有完整运行论文中的实验。仓库链接:https://github.com/jingranburangyongzhongwen/t
文章目录前言Theoretical Analysis of Global and Individual Q-valuesThe Practical Implementation of Qatten前言还不知道发在了哪里。该文章认为之前的方法是强加了 QtotQ_{tot}Qtot 和 QiQ_iQi 之间的某种假设,缺少理论基础。除此之外,他们在将个体 QiQ^iQi 转为 QtotQ_{to
文章目录前言Averaged DQNOverestimation and Approximation Errors前言DRL train起来是困难的,因为存在instability和variability,这也会影响其表现。寻找合适的方式让训练变得平稳是比较关键的。以往的算法通常是在线性函数逼近的情况下分析的,其在温和的假设下保证收敛。但现实生活的问题通常包含高维输入,使得线性函数逼近方法依赖手工
我在安装tensorflow-gpu=1.12时出现了下面的错误:SafetyError: The package for tensorflow-base located at /home/lkf/lkf_u/anaconda3/pkgs/tensorflow-base-1.12.0-gpu_py36had579c0_0appears to be corrupted. The path 'li..