Amadeus's blog Amadeus's blog
首页
  • 前端文章

    • JavaScript
    • Vue
    • TypeScript
    • 前端工程化
  • 学习笔记

    • 《JavaScript教程》笔记
    • 《ES6 教程》笔记
    • 《Vue》笔记
    • 《TypeScript 从零实现 axios》
    • 小程序笔记
  • HTML
  • CSS
  • stylus
  • 技术文档
  • GitHub技巧
  • Nodejs
  • 博客搭建
  • 口语
  • 音标
  • 语法
  • 简单
  • 中等
  • 困难
  • 20年10月
  • 20年11月
  • 20年12月
  • 21年01月
  • 21年02月
  • 21年03月
  • 21年04月
  • 21年05月
  • 21年06月
  • 21年07月
  • 21年08月
  • 21年09月
  • 21年10月
  • 21年11月
  • 21年12月
  • 22年01月
  • 22年02月
  • 22年03月
  • 22年04月
  • 22年05月
  • 22年06月
  • 22年07月
  • 22年08月
  • 22年09月
  • 21年3月
  • 知识笔记
  • 22年5月
  • 22年8月
  • 22年9月
  • 学习
  • 书法
  • 面试
  • 音乐
  • 驾照
  • 深度强化学习
  • 心情杂货
  • 友情链接
关于
  • 网站
  • 资源
  • Vue资源
  • 分类
  • 标签
  • 归档
GitHub (opens new window)

Amadeus

起风了,唯有努力生存!
首页
  • 前端文章

    • JavaScript
    • Vue
    • TypeScript
    • 前端工程化
  • 学习笔记

    • 《JavaScript教程》笔记
    • 《ES6 教程》笔记
    • 《Vue》笔记
    • 《TypeScript 从零实现 axios》
    • 小程序笔记
  • HTML
  • CSS
  • stylus
  • 技术文档
  • GitHub技巧
  • Nodejs
  • 博客搭建
  • 口语
  • 音标
  • 语法
  • 简单
  • 中等
  • 困难
  • 20年10月
  • 20年11月
  • 20年12月
  • 21年01月
  • 21年02月
  • 21年03月
  • 21年04月
  • 21年05月
  • 21年06月
  • 21年07月
  • 21年08月
  • 21年09月
  • 21年10月
  • 21年11月
  • 21年12月
  • 22年01月
  • 22年02月
  • 22年03月
  • 22年04月
  • 22年05月
  • 22年06月
  • 22年07月
  • 22年08月
  • 22年09月
  • 21年3月
  • 知识笔记
  • 22年5月
  • 22年8月
  • 22年9月
  • 学习
  • 书法
  • 面试
  • 音乐
  • 驾照
  • 深度强化学习
  • 心情杂货
  • 友情链接
关于
  • 网站
  • 资源
  • Vue资源
  • 分类
  • 标签
  • 归档
GitHub (opens new window)
  • 学习

  • 书法

  • 面试

  • 音乐

  • 心情杂货

  • 深度强化学习

    • 强化学习
  • 驾照

  • 友情链接
  • 更多
  • 深度强化学习
Amadeus
2022-02-09

强化学习

# 数学基础及环境

  1. 马尔科夫决策过程

    1. 马尔科夫性质

      1. 无后效性:t+1时刻的环境反馈只与当前状态s和动作a有关,与t-1时刻无关
    2. 马尔科夫决策过程

      1. 马尔科夫决策过程由四元组组成:$MDP$=$(S, A, P_{sa}, R)$
        1. $S$:状态空间集 $S$ =${s_1,s_2,...,s_n}$
        2. $A$:动作空间集 $A = {a_1,a_2,...,a_n}$
        3. $P_{sa}$:状态转移概率,在当前状态$s$下执行$a$动作后转移到$s’$的概率分布
        4. $R$:奖励函数 $r = R(s,a)$
    3. 强化学习的数学基础理论

      强化学习就是通过在环境中不断尝试采样,学习到一个最优策略$\pi$,智能体在$\pi$的指导下得到的累计奖励的期望就是价值$v$

      1. 策略 $\pi$

        1. 确定性策略 $a = \pi(s)$,根据策略函数$\pi$,以及当前状态s能直接确定接下来要执行的动作 $a$
        2. 随机性策略 $\pi(s,a)$,表示在当前状态s下执行a的概率,$\pi(s,a) = P[a_t=a|s_t=s]$
      2. 奖励 $R$

        1. 总奖励 $R = r_1 + r_2 + ... + r_n$

        2. 未来累积奖励 $R = r_t + r_{t+1} + ... + r_n$

        3. 折扣未来累积奖励 $G_t = R_t + \gamma R_{t+1} + \gamma^2 R_{t+2} + ... + \gamma^{n-t} R_{n} = R_t + \gamma G_{t+1}$ , $\gamma \in [0,1]$的常数

          $\textcolor{red}{强化学习的目标是学习一个使未来折扣累积奖励最大的最优策略 \pi}$

      3. 价值函数

        1. 状态值函数 $v(s)=E[G_t|s_t=s]$,当前状态下执行a会得到的奖励期望
        2. 动作值函数$q(s,a)=E[G_t|s_t=s,a_t=a]$
    4. 求解强化学习

      1. 贝尔曼方程

        1. 表示当前状态下的价值$v(s_t)$和下个时刻的价值$v(s_{t+1})$的关系,动作值也可以用贝尔曼方程表示
          1. $v(s)=E[G_t|s_t=s]=E[r_t+\gamma v(s_{t+1})|s_t=s]$
          2. 贝尔曼方程:$v(s)=R_s+\gamma \sum_{s'\in S}P_{ss'}v(s')$,简化:$v=R+\gamma Pv$
      2. 最优值函数

        1. $\pi^(s)\rightarrow v^(s)=max_\pi v(s)$
        2. 同理,最优动作值函数 $q^*(s,a)=max_\pi q_\pi(s,a)$
      3. 最优策略

      4. 求解最优策略

        1. 动态规划法

        2. 蒙特卡洛法

        3. 时间差分法

          $\textcolor{red}{以上方法都存在探索-利用困境,为了权衡的两者的重要性,具体方法 \varepsilon - 贪婪算法}$

# 动态规划

  1. 动态规划
    1. 概述
      1. 动态规划与贝尔曼方程
    2. 策略评估
      1. 策略评估算法
      2. 策略评估算法实现
    3. 策略改进
    4. 策略迭代
      1. 策略迭代算法
      2. 策略迭代算法实现
    5. 值迭代
      1. 值迭代算法
      2. 值迭代算法实现
    6. 异步动态规划
      1. In-Place动态规划
      2. 加权扫描动态规划
      3. 实时动态规划

# 蒙特卡洛

编辑 (opens new window)
一个完美主义者的自我救赎
交通事故警示录

← 一个完美主义者的自我救赎 交通事故警示录→

最近更新
01
最长递增子序列
04-21
02
非递减子序列
04-21
03
全排列
04-21
更多文章>
Theme by Vdoing | Copyright © 2020-2024 Amadeus | MIT License
  • 跟随系统
  • 浅色模式
  • 深色模式
  • 阅读模式