课程门户-章节详情

刘先勇（Dr. Xianyong Liu）

1 Introduction of AI
- 1.1 授课内容
- 1.2 课程PPT
2 Intelligent Angents
- 2.1 授课内容
- 2.2 课题PPT
3 Seach and Tree-search
- 3.1 授课内容
- 3.2 课程PPT
4 Graph-search and Uninformed Search
- 4.1 授课内容
- 4.2 课程PPT
5 Heuristic search algorithms
- 5.1 授课内容
- 5.2 课程PPT
- 5.3 课程视频
- 5.4 课后讨论
6 The conditions for optimality
- 6.1 授课内容
- 6.2 课程PPT
- 6.3 课程视频
- 6.4 课后讨论
7 Markov Reward Process
- 7.1 授课内容
- 7.2 课程PPT
- 7.3 课程视频
- 7.4 课后讨论
8 Markov Decision Process
- 8.1 授课内容
- 8.2 课程PPT
- 8.3 课程视频
- 8.4 课后讨论
9 Beyond classical search - Learning from the Nature
- 9.1 授课内容
- 9.2 课程PPT
- 9.3 课程视频
- 9.4 课后讨论
10 Quantifying Uncertainty
- 10.1 授课内容
- 10.2 课程PPT
- 10.3 课程视频
- 10.4 课后讨论
11 Probability reasoning
- 11.1 授课内容
- 11.2 课程PPT
- 11.3 课程视频
- 11.4 课后讨论
12 Bayesian Inference
- 12.1 授课内容
- 12.2 课程PPT
- 12.3 课程视频
- 12.4 课后讨论
13 Reinforcement Learning
- 13.1 授课内容
- 13.2 课程PPT
- 13.3 课程视频
- 13.4 课后讨论
14 Dynamic Programming
- 14.1 授课内容
- 14.2 课程PPT
- 14.3 课程视频
- 14.4 课后讨论
15 Lecture Summary
- 15.1 授课内容
- 15.2 考后分析

授课内容

上课日期：第六周 2020.10.14 3-4节，西校区工程中心204

出勤统计：应到41/实到40/迟到0/请假1（徐炜涛）

在强化学习中，马尔科夫决策过程（Markov decision process, MDP）是对完全可观测的环境进行描述的，也就是说观测到的状态内容完整地决定了决策的需要的特征。几乎所有的强化学习问题都可以转化为MDP。本讲是理解强化学习问题的理论基础。

相较于马尔科夫奖励过程，马尔科夫决定过程多了一个行为集合A，它是这样的一个元组: <S, A, P, R, γ>。看起来很类似马尔科夫奖励过程，但这里的P和R都与具体的行为a对应，而不像马尔科夫奖励过程那样仅对应于某个状态，A表示的是有限的行为的集合。