logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【强化学习笔记】3.1 基于模型的动态规划方法

【深入浅出强化学习原理入门学习笔记】3.基于模型的动态规划方法首先解释一下什么是有模型和无模型,马尔科夫决策过程用元组表示是(S,A,P,R,γ)(S,A,P,R,γ)\big(S,A, P, R, \gamma\big), SSS为有限状态集, AAA为有限动作集,PPP是状态转移概率(包含动作),RRR为回报函数,γγ\gamma为回报折扣因子。如果其中的PPP,RRR不知道的话,就是...

【强化学习笔记】2 马尔可夫决策过程

【深入浅出强化学习原理入门学习笔记】2.马尔可夫决策过程马尔科夫性马尔科夫性{\color{red}{马尔科夫性}}:P[St+1|St]=P[St+1|S1,S2,S3,...,St]P[St+1|St]=P[St+1|S1,S2,S3,...,St]P\big[S_{t+1}|S_t\big]=P\big[S_{t+1}|S_1,S_2,S_3,...,S_t\big] 即系统的下一个状...

【广告算法工程师入门 30】从RD的核心能力闲谈到增加广告收益的十八般武艺

【该文档已经整理到看云电子书:广告算法学习笔记】广告算法工程师入门系列的机制设计部分基本上已经总结完了,拖了好久,大部分内容都是点到为止,毕竟我理解的也不是很深入,和那些老司机们也没有办法比,很多内容还需要深入学习研究,而不是浮于表面,对于我来说,能够相对系统的总结这部分的内容已经很不容易了,希望对自己的学习和以后的发展有所帮助。【前方预警,本文有毛概的既视感,不喜慎入】机制部分的内容...

分布式机器学习系统之 ANGEL

引自:http://www.ccf.org.cn/c/2017-08-16/603621.shtmlAngel: a new large-scale machine learning systemANGEL:一个新型的分布式机器学习系统阅读量:36崔斌,余乐乐收藏本文PDF在线浏览下载本文    混合并行分布式机器学习异构感知SGD算法引言当前,人工智能在多个领域的强势崛起,让人们领略到

#机器学习#分布式#人工智能
美团推荐算法:机器学习重排序模型

【转】http://blog.csdn.net/chndata/article/details/43405641编者按:在用户意图明确时,我们通常用搜索引擎来解决互联网时代的信息过载问题,但当用户的意图不明确或者很难用清晰的语义表达,搜索引擎就无能为力。此时,借助推荐系统通过用户行为的分析理解其意图,为其推送个性化的结果,便成为一种更好的选择。美团作为国内发展较快的O2O网站,有着大量的用户和丰富

#机器学习
【强化学习笔记】5.3 无模型的强化学习方法-时间差分之Q_learning算法代码实现

时间差分之Sarsa算法代码实现原理见【强化学习笔记】5.1 无模型的强化学习方法-时间差分算法#!/usr/bin/env python# -*- coding:utf-8 -*-#import gymimport randomimport numpy as npclass GriDMdp:def __init__(s):s.gamma...

【强化学习笔记】4.2 无模型的强化学习方法-蒙特卡罗算法编程实现

本文给出基于蒙特卡洛的强化学习方法(随机策略计算状态值函数)和基于蒙特卡洛的强化学习方法(ε−greedy策略计算状态行为值函数)两种方法的编程实现。问题模型是迷宫问题。基于蒙特卡洛的强化学习方法(随机策略计算状态值函数)#!/usr/bin/env python# -*- coding:utf-8 -*-#import gymimport random#import...

到底了