logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

强化学习 model free 蒙特卡洛增量 与 TD(0)

时序差分(TD)学习结合了蒙特卡洛方法和动态规划的方式:对于蒙特卡洛方法,其迭代的方式是用episode中所有的样本结果作为更新的目标,如下所示,Gt代表的是时刻t真实的回报,他是有所有根据样本得到。对于时序差分TD(0)则是用了其下一步状态的回报值作为 bootstrap 代替原样本的结果:所以对于蒙特卡洛方式,TD(0)只是改变了一个地方,即用 下一状态得到的真实值 + 下一状态的估计值 v(

强化学习 了解强化学习的目标和回报

一、目标和收益智能体的目标被形式化的表征为一种特殊的信号,被称为收益,他通过环境传递给智能体,收益都是一个单一的标量数值,非正式的说,智能体的目标是最大化其收到的总收益,这意味这需要最大化的不是当前的收益,而是长期积累的收益。简单的说,我们所有的目标或者说目的,都可以被总结为,最大化智能体接受到的标量信号(即收益),累计和的概率期望值。-------使用收益信号来形式化目标是强化学习最显著的特征之

分布式学习(2)etcd@1@goreman

一、什么是goremangoreman是一个go语言编写的多进程管理工具,是对Ruby下广泛使用的foreman的重写(foreman原作者也实现了一个golang版:forego,不过没有goreman好用)相比较monit、supervisor而言要简单的多,而且可以在项目级别管理进程,比较适合开发环境使用。比如快速运行和一项目相关的所有进程,goreman就可以派上用场。coreos的...

GYM 强化学习 文档 (一)

一、安装 Installation:pip install gym二、环境 Environments:以下是让强化学习运行的最小化的原始案例,首先,我们会初始化一个CartPole-v0(即手推车-杆子游戏的初始化环境) 环境,并渲染他的行为1000次,具体代码如下:[具体运行案例,放到本地环境运行]import gymenv = gym.make('CartPole-v0')env.reset(

数据分析——假设检验

1 t检验t检验,亦称student t检验(Student's t test),主要用于样本含量较小,总体标准差σ未知的正态分布。 换句话说,如果样本量很小的时候,并且你不知道样本的方差,那么你可以用t分布去代表正太分布去做一些统计上的工作。如果方差已知,那么可以直接用正太分布去做统计。t检验是用t分布理论来推论差异发生的概率,从而比较两个平均数的差异是否显著。1.1 一个例子...

超好理解的PCA 特征选择

一、PCA简介1. 相关背景主成分分析(Principal Component Analysis,PCA), 是一种统计方法。通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。上完陈恩红老师的《机器学习与知识发现》和季海波老师的《矩阵代数》两门课之后,颇有体会。最近在做主成分分析和奇异值分解方面的项目,所以记录一下心得体会。

机器学习 交叉验证

首先,要明确交叉验证是什么?有一点很明确,交叉验证需要将数据集分为训练集和验证集(或者称测试集),在训练集上对模型训练参数,在验证集上看训练出的模型的好坏。当数据比较少的时候,验证集上的泛化误差并不可靠,所以不能表明一个模型比另一个模型要好。交叉验证通过划分数据,确保性能指标是所有数据给出的。 交叉验证分为三种: - held-out: 最简单,将数据集分成两部分,一部分作为训练集,一

数据分析——假设检验

1 t检验t检验,亦称student t检验(Student's t test),主要用于样本含量较小,总体标准差σ未知的正态分布。 换句话说,如果样本量很小的时候,并且你不知道样本的方差,那么你可以用t分布去代表正太分布去做一些统计上的工作。如果方差已知,那么可以直接用正太分布去做统计。t检验是用t分布理论来推论差异发生的概率,从而比较两个平均数的差异是否显著。1.1 一个例子...

ubuntu卸载docker

ubuntu卸载dockersudo apt-get remove docker docker-engine docker.io docker-ce单独的反而卸载不掉,不晓得为什么

HYPERLEDGER FABRIC架构详解 (好文!!!!)

区块链开源实现HYPERLEDGER FABRIC架构详解区块链开源实现HYPERLEDGER FABRIC架构详解hyperledger fabric是区块链中联盟链的优秀实现,主要代码由IBM、Intel、各大银行等贡献,目前v1.1版的kafka共识方式可达到1000/s次的吞吐量。本文中我们依次讨论:区块链的共通特性、fabric核心概念、fabric的交易执行流程。。1、...

    共 12 条
  • 1
  • 2
  • 请选择