强化学习
# 数学基础及环境
马尔科夫决策过程
马尔科夫性质
- 无后效性:t+1时刻的环境反馈只与当前状态s和动作a有关,与t-1时刻无关
马尔科夫决策过程
- 马尔科夫决策过程由四元组组成:$MDP$=$(S, A, P_{sa}, R)$
- $S$:状态空间集 $S$ =${s_1,s_2,...,s_n}$
- $A$:动作空间集 $A = {a_1,a_2,...,a_n}$
- $P_{sa}$:状态转移概率,在当前状态$s$下执行$a$动作后转移到$s’$的概率分布
- $R$:奖励函数 $r = R(s,a)$
- 马尔科夫决策过程由四元组组成:$MDP$=$(S, A, P_{sa}, R)$
强化学习的数学基础理论
强化学习就是通过在环境中不断尝试采样,学习到一个最优策略$\pi$,智能体在$\pi$的指导下得到的累计奖励的期望就是价值$v$
策略 $\pi$
- 确定性策略 $a = \pi(s)$,根据策略函数$\pi$,以及当前状态s能直接确定接下来要执行的动作 $a$
- 随机性策略 $\pi(s,a)$,表示在当前状态s下执行a的概率,$\pi(s,a) = P[a_t=a|s_t=s]$
奖励 $R$
总奖励 $R = r_1 + r_2 + ... + r_n$
未来累积奖励 $R = r_t + r_{t+1} + ... + r_n$
折扣未来累积奖励 $G_t = R_t + \gamma R_{t+1} + \gamma^2 R_{t+2} + ... + \gamma^{n-t} R_{n} = R_t + \gamma G_{t+1}$ , $\gamma \in [0,1]$的常数
$\textcolor{red}{强化学习的目标是学习一个使未来折扣累积奖励最大的最优策略 \pi}$
价值函数
- 状态值函数 $v(s)=E[G_t|s_t=s]$,当前状态下执行a会得到的奖励期望
- 动作值函数$q(s,a)=E[G_t|s_t=s,a_t=a]$
求解强化学习
贝尔曼方程
- 表示当前状态下的价值$v(s_t)$和下个时刻的价值$v(s_{t+1})$的关系,动作值也可以用贝尔曼方程表示
- $v(s)=E[G_t|s_t=s]=E[r_t+\gamma v(s_{t+1})|s_t=s]$
- 贝尔曼方程:$v(s)=R_s+\gamma \sum_{s'\in S}P_{ss'}v(s')$,简化:$v=R+\gamma Pv$
- 表示当前状态下的价值$v(s_t)$和下个时刻的价值$v(s_{t+1})$的关系,动作值也可以用贝尔曼方程表示
最优值函数
- $\pi^(s)\rightarrow v^(s)=max_\pi v(s)$
- 同理,最优动作值函数 $q^*(s,a)=max_\pi q_\pi(s,a)$
最优策略
求解最优策略
动态规划法
蒙特卡洛法
时间差分法
$\textcolor{red}{以上方法都存在探索-利用困境,为了权衡的两者的重要性,具体方法 \varepsilon - 贪婪算法}$
# 动态规划
- 动态规划
- 概述
- 动态规划与贝尔曼方程
- 策略评估
- 策略评估算法
- 策略评估算法实现
- 策略改进
- 策略迭代
- 策略迭代算法
- 策略迭代算法实现
- 值迭代
- 值迭代算法
- 值迭代算法实现
- 异步动态规划
- In-Place动态规划
- 加权扫描动态规划
- 实时动态规划
- 概述
# 蒙特卡洛
编辑 (opens new window)