强化学习介绍（RL）

机器学习有三大分支，监督学习、无监督学习和强化学习，强化学习是系统从环境学习以使得奖励最大的机器学习。人工智能中称之为强化学习，在控制论中被称之为动态规划，两者在概念上是等价的。也被翻译为增强学习。

Dark-Rich

8140人浏览 · 2017-03-25 11:55:47

Dark-Rich · 2017-03-25 11:55:47 发布

一、简介

机器学习有三大分支，监督学习、无监督学习和强化学习，强化学习是系统从环境学习以使得奖励最大的机器学习。**人工智能中称之为强化学习，在控制论中被称之为动态规划，两者在概念上是等价的。**也被翻译为增强学习。

二、概念

不同于机器学习的其它两个分支：

它不是无监督学习，因为有回报（Reward）信号
反馈是延时的，而不是即时的
数据是与时间有关的序列
智能体的动作与后续的数据有关

强化学习基于一种回报假设：

回报是标量反馈信号
表明智能体（Agent）在这步做得有多好
智能体（Agent）的任务就是最大化累计回报

Reinforcement learning is learning what to do ----how to map situations to actions ---- so as to maximize a numerical reward signal.

强化学习关注的是智能体如何在环境中采取一系列行为，从而获得最大的累积回报。

连续决策（Sequential Decision Making）：

目标：选择一个Action尽量最大化将来的总回报
Aciton可能有长期的影响
回报可能延时
牺牲即时回报去获得更好的长期回报

金融投资就是一个这样的过程。

环境状态（Environment State）：

Environment State是Environment私有的表达
Environment利用这些数据寻找下个Observation或者Reward
Environment State不总是对Agent可见的
即使Environment State是可见的，也有可能包含一些不相关的信息

Environment State

智能体状态（Agent State）：

Agent State是Agent的内在表达
Agent用这些信息寻找下个Action
这些信息被用于强化学习算法

Agent State

信息状态（Information State）：包含来自历史记录的所有有用的信息，也称之为Markov State

将来信息独立给定现在信息的过去信息
一旦状态已知，历史记录就可以扔掉
这个状态是将来的充要统计
Environment State是Markov
历史记录也是Markov

完全可观察的环境（Fully Observable Environments）：Agent可以直接观察到的Environment State

Agent State = Environment State = Information State
这是一个Markov Decision Process

部分可观察的环境（Partially Observable Environments）

Agent不能直接观察到Environment
Agent State不等于Environment State
这是一个Partially Observable Markov Decision Process
Agent必须创建自己的State表达自己

强化学习智能体的主要组件（Major Components of an RL Agent）：

Policy：Agent的习惯函数
Value Function：每个State或者Action的好坏
Model：Agent的环境表达

策略（Policy）：

Policy是Agent的习惯表达
State到Action的映射
确定策略
随机策略

值函数（Value Function）：

Value Function是将来回报的预测
用于评估State的好坏
因此，可以用于动作间的选择

模型（Model）：

Model预测下一步Environment做什么
预测下个状态
预测下个回报

三、Agent的分类：

Value Based：

Value Function

Policy Based：

Policy

Actor Critic：

Policy
Value Function

Model Free：

Policy或Value Function

Model Based：

Policy或Value Function
Model

RL Agent Taxonomy

四、过程：

通过强化学习，一个智能体（Agent）应该知道在什么状态（State）下应该采取什么行为（Action），这个状态从以获取最大的回报（Reward）。强化学习是从环境状态到动作的映射的学习，我们把这个映射称之为策略（Policy）。

David Silver

从David Silver的图可以看出Agent和Environment之间的关系，每个时间点Agent都会根据上一刻的State，从可以选择的动作集合中选择一个动作a_t执行，这个动作集合可以是连续的，比如机器人的控制，也可以是离散的比如游戏中的几个按键，动作集合的数量将直接影响整个任务的求解难度，执行a_t后得到一个Reward。环境收到动作a_t，放出State和Reward。

Agent都是根据当前的State来确定下一步的动作。因此，状态State和动作Action存在映射关系，也就是一个State可以对应一个Action，或者对应不同动作的概率（概率最高的就是最值得执行的动作）。状态与动作的关系其实就是输入与输出的关系，而State到Action的过程就称之为一个Policy。我们需要找到这样一个Policy使得Reward最大。