logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

强化学习------DQN算法

DQN,即深度Q网络(),是指基于深度学习的Q-Learing算法。Q-Learing算法维护一个Q-table,使用表格存储每个状态s下采取动作a获得的奖励,即状态-价值函数Q(s,a),这种算法存在很大的局限性。在现实中很多情况下,强化学习任务所面临的状态空间是连续的,存在无穷多个状态,这种情况就不能再使用表格的方式存储价值函数。为了解决这个问题,我们可以用一个函数Q(s,a;w)来近似动作-

文章图片
#算法
强化学习------DDPG算法(附pytorch代码)

算法是DeepMind团队提出的一种专门用于解决连续控制问题的在线式(on-line)深度强化学习算法,它其实本质上借鉴了算法里面的一些思想。本文将会介绍其基本原理,并实现DDPG算法来训练游戏的例子。

文章图片
#算法#pytorch#人工智能
Linux-------访问centos虚拟机中的端口服务

文章预览前言一、firewalld的基本使用二、开启端口2.1、添加开放的端口2.2、添加端口外部访问权限(这样外部才能访问)2.3、重新载入,添加端口后重新载入才能起作用三、查看Centos的ip四、外网访问开启的端口五、附上其它关于端口的操作命令前言我已经在自己的Centos下部署了docker的Nginx,端口3344,下面都会以开放端口3344为例子一、firewalld的基本使用防火墙的

#linux#docker#centos +2
VMware虚拟机下的CentOS7网络配置

一、虚拟机设置VMware界面最上面,选择虚拟机->设置:将网络连接改为桥接模式,如下图所示:二、查看主机DNS地址win+R 输入cmd,启动命令行界面,输入ipconfig/all,查看主机DNS服务器地址,如下图所示:注意,由于本机是无线上网,此处为无线局域网的DNS服务器地址,记下此地址,后面有用。三、修改CentOS7网络配置文件1.在CentOS7中打开终端,输入 cd /etc

#linux#网络#centos
Vue之全局事件总线

一、理解1.1、 Vue 原型对象上包含事件处理的方法$on(eventName, listener): 绑定自定义事件监听$emit(eventName, data): 分发自定义事件$off(eventName): 解绑自定义事件监听$once(eventName, listener): 绑定事件监听, 但只能处理一次1.2、所有组件实例对象的原型对象的原型对象就是 Vue 的原型对象所有组件

#javascript#前端框架
GoogleColab修改python版本

使用时,发现项目运行不了,经过排查之后,发现是python版本的问题,之前的项目在本地测试是python版本是3.7,但是的python版本是3.10,所以需要修改python版本,下面记录一下过程。

文章图片
#python#开发语言#linux
强化学习之DQN(deep Q-network)算法

DQN算法是深度学习领域首次广泛应用于强化学习的算法模型之一。它于2013年由DeepMind公司的研究团队提出,通过将深度神经网络与经典的强化学习算法Q-learning结合,实现了对高维、连续状态空间的处理,具备了学习与规划的能力。

文章图片
#算法
Google Colab免费GPU使用教程

有时候本地跑代码可能耗时比较久,而且还会耽误你本地电脑的使用,购买云服务器又不舍得买,所以我们可以使用谷歌的免费服务器,可以使用GPU跑代码Google Colab官网是一个免费的基于云端的Jupyter笔记本环境,由Google提供。它提供了一个方便的平台,使用户可以创建、分享和协作编写Python代码和机器学习模型。以下是是免费的,无需购买任何硬件或软件。使用Google的云端计算机,使用户能

文章图片
#googlecloud#神经网络
强化学习------PPO算法

PPO算法之所以被提出,根本原因在于在处理连续动作空间时取值抉择困难。取值过小,就会导致深度强化学习收敛性较差,陷入完不成训练的局面,取值过大则导致新旧策略迭代时数据不一致,造成学习波动较大或局部震荡。除此之外,因为在线学习的性质,进行迭代策略时原先的采样数据无法被重复利用,每次迭代都需要重新采样;同样地置信域策略梯度算法虽然利用重要性采样、共轭梯度法求解提升了样本效率、训练速率等,但在处理函数的

文章图片
#算法#自然语言处理
    共 17 条
  • 1
  • 2
  • 请选择