强化学习基础 马尔科夫过程 动态规划 无模型方法 无模型方法:未知环境模型,需要通过和环境的交互获得反馈进行策略学习。有模型方法:已知环境模型,根据环境直接推导最优策略。 蒙特卡洛 时间差分 多步自举 基于策略梯度的强化学习 DQN 基于信赖域的强化学习 基于模型的强化学习