Markov Decision Processes

MDPs

  • 马尔可夫性

    • 只要知道现在,将来和过去条件独立
    • 每一时刻的状态只与上一时刻的状态有关
    • 当前状态包含了所有的历史状态信息
    • 要求环境全观测
  • 任务类型定义

    • 强化学习中,从初始状态到终止状态的序列过程,被称为一个片段(episode)。
      • 如果一个任务总以终止状态结束,那么这个任务被称为片段任务(episodic task)
      • 如果一个任务会没有终止状态,会被无限执行下去,这被称为连续性任务 (continuing task)
    • 终止状态等价于自身转移概率为 1,奖励为 0 的的状态
  • 状态转移矩阵

s1 s2 s3 s4 转移
0.5 0.0 0.5 0.0 s1
0.1 0.2 0.3 0.4 s2
0.0 0.0 0.0 1.0 s3
0.0 0.0 0.0 1.0 s4

上图中s1转换到s1的概率是0.5,转换到s3的概率是0.5;s2转换到s1的概率是0.1,转换到s2的概率是0.2,转换到s3的概率是0.3,转换到s4的概率是0.4。

  • 奖励与回报

    • 奖励值:对每一个状态的评价

    • 回报值: 对每一个片段的评价

      • 对于片断性任务,回报值是未来有限个状态的奖励值的和
      • 对于连续性任务,回报值是未来无限个状态的奖励值的和
      • 回报值是从时间处开始的累计衰减奖励
    • 指数衰减值

      • 对未来的把握也是逐渐衰减的
      • 一般情况下,我们更关注短时间的反馈
    • 值函数:某个状态所对应回报值的期望

  • 贝尔曼方程

    • 强化学习的核心
  • 策略

    • 状态值函数():是从状态 s 开始,使用策略 π 得到的期望回报值
    • 状态动作值函数():是从状态 s 开始,执行动作 a,然后使用策略 π 得到的期望回报值
  • 知识点

    • 贝尔曼最优方程不是线性的
    • 一般很难有闭式的解
    • 可以使用迭代优化的方法去解
      • 值迭代
      • 策略迭代
      • Q 学习
      • SARSA

POMDP

  • 观测不等于状态O ≠ S
  • POMDPs 由七元组构成 < S, A, O, P, R, Z, γ >
  • Z是观测函数
  • 观测不满足马尔可夫性,因此也不满足贝尔曼方程
  • 状态未知,隐马尔可夫过程
  • 有时对于 POMDPs 来说,最优的策略是随机性的

无衰减 MDPs

  • 用于各态历经马尔可夫决策过程
  • 存在独立于状态的平均奖赏
  • 求值函数时,需要减去该平均奖赏,否则有可能奖赏爆炸

Search

    欢迎添加我的微信

    闷骚的程序员

    Table of Contents