logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

机器学习学习日志_熵

信息熵1、信息量是度量 信息的单位2、信息的信息量的大小与 事件发生的概率相关:比如你想要得到(中国男足失利)这条信息,这条信息的信息量可以看做很小,因为你心里默认这是必然的,你学不到任何知识;相反的,如果你得到的是(中国男足夺冠)这条信息,这条信息的信息量将会很大,你就会点击相应的连接去了解(你的价值观都被颠覆了)3、设一条信息的信息量为 I(x),两条信息的信息量为 I(x)+I...

深度学习学习日记_FCN_(2) 文献阅读

Fully Convolutional Networks for Semantic Segmentation(SS)文献阅读记录用1、Abstract:训练端到端,pixel到pixel的卷积网络,使其适应任何大小的输入,并且给出对应输入大小的输出。(1)文章解释FCN需要做到主要任务是:网络的dense prediction(具体的pixel属于哪个类别)(2)主要过程是:将...

深度学习学习日记_Region proposal

定义:Region Proposal(候选区域),就是预先找出图中目标可能出现的位置,通过利用图像中的纹理、边缘、颜色等信息,保证在选取较少窗口。目前的目标检测也被分为:有Region Proposal的方式(Faster-RCNN等)和没有Region Proposal的方法区分(YOLO等)其他的必须了解一些概念:Bounding boxes、Region Proposal、...

强化学习 model free 蒙特卡洛增量 与 TD(0)

时序差分(TD)学习结合了蒙特卡洛方法和动态规划的方式:对于蒙特卡洛方法,其迭代的方式是用episode中所有的样本结果作为更新的目标,如下所示,Gt代表的是时刻t真实的回报,他是有所有根据样本得到。对于时序差分TD(0)则是用了其下一步状态的回报值作为 bootstrap 代替原样本的结果:所以对于蒙特卡洛方式,TD(0)只是改变了一个地方,即用 下一状态得到的真实值 + 下一状态的估计值 v(

强化学习 了解强化学习的目标和回报

一、目标和收益智能体的目标被形式化的表征为一种特殊的信号,被称为收益,他通过环境传递给智能体,收益都是一个单一的标量数值,非正式的说,智能体的目标是最大化其收到的总收益,这意味这需要最大化的不是当前的收益,而是长期积累的收益。简单的说,我们所有的目标或者说目的,都可以被总结为,最大化智能体接受到的标量信号(即收益),累计和的概率期望值。-------使用收益信号来形式化目标是强化学习最显著的特征之

分布式学习(2)etcd@1@goreman

一、什么是goremangoreman是一个go语言编写的多进程管理工具,是对Ruby下广泛使用的foreman的重写(foreman原作者也实现了一个golang版:forego,不过没有goreman好用)相比较monit、supervisor而言要简单的多,而且可以在项目级别管理进程,比较适合开发环境使用。比如快速运行和一项目相关的所有进程,goreman就可以派上用场。coreos的...

GYM 强化学习 文档 (一)

一、安装 Installation:pip install gym二、环境 Environments:以下是让强化学习运行的最小化的原始案例,首先,我们会初始化一个CartPole-v0(即手推车-杆子游戏的初始化环境) 环境,并渲染他的行为1000次,具体代码如下:[具体运行案例,放到本地环境运行]import gymenv = gym.make('CartPole-v0')env.reset(

强化学习 学习过程

https://github.com/syyxtl/RL-learn我会不断学习RL,然后跟着书籍编写RL学习代码:目前完成:K-bandits:了解ep-greedydp,dp2:dp methodrandom_walk:MC,TD(0) (doing)cliff_walking_sarsa, cliff_walking_Qlearning:sarsa,Q-learningrandom_walk

强化学习 model free 蒙特卡洛增量 与 TD(0)

时序差分(TD)学习结合了蒙特卡洛方法和动态规划的方式:对于蒙特卡洛方法,其迭代的方式是用episode中所有的样本结果作为更新的目标,如下所示,Gt代表的是时刻t真实的回报,他是有所有根据样本得到。对于时序差分TD(0)则是用了其下一步状态的回报值作为 bootstrap 代替原样本的结果:所以对于蒙特卡洛方式,TD(0)只是改变了一个地方,即用 下一状态得到的真实值 + 下一状态的估计值 v(

强化学习 线性方法特征构造

线性方法是一种很好的价值函数拟合方式,不仅是因为他们有收敛性的保证,另外,他们在数据和计算方面都比较高效。然而,是否会具有这样的优势,即效果是否会很好,很大程度上取决于我们如何选取用来表达状态的特征。选择合适于任务的特征是将先验知识加入到强化学习系统的一个重要方式,直观的说,这些特征应该提取状态空间中最通用的信息。例如我们要对几何对象进行评估,那么我们可以选取形状,颜色,大小或者功能作为特征。如果

    共 21 条
  • 1
  • 2
  • 3
  • 请选择