Reinforcement Learning

强化学习基础

马尔科夫过程

动态规划

无模型方法

无模型方法：未知环境模型，需要通过和环境的交互获得反馈进行策略学习。有模型方法：已知环境模型，根据环境直接推导最优策略。

蒙特卡洛

时间差分

多步自举

基于策略梯度的强化学习

DQN

基于信赖域的强化学习

基于模型的强化学习

Search

欢迎添加我的微信

闷骚的程序员

Table of Contents