强化学习

2020

2020-07-11 无模型策略预测和控制 - 时序差分学习 (Model-Free Policy Prediction and Control - Temporal Difference Learning) - 强化学习系列

2020-07-01 无模型策略预测和控制 - 蒙特卡洛方法 (Model-Free Policy Prediction and Control - Monte-Carlo Learning) - 强化学习系列

2020-06-13 利用动态规划求解马尔可夫决策过程 (Planning by Dynamic Programming) - 强化学习系列

2020-05-23 马尔可夫决策过程 (Markov Decision Process) - 强化学习系列

2020-05-16 多臂赌博机 (Multi-armed Bandit) - 强化学习系列

2020-05-09 强化学习简介 (Introduction of Reinforcement Learning) - 强化学习系列