人工智能基础(Fundamentals of Artificial...

刘先勇(Dr. Xianyong Liu)

目录

  • 1 Introduction of AI
    • 1.1 授课内容
    • 1.2 课程PPT
  • 2 Intelligent Angents
    • 2.1 授课内容
    • 2.2 课题PPT
  • 3 Seach and Tree-search
    • 3.1 授课内容
    • 3.2 课程PPT
  • 4 Graph-search and Uninformed Search
    • 4.1 授课内容
    • 4.2 课程PPT
  • 5 Heuristic search algorithms
    • 5.1 授课内容
    • 5.2 课程PPT
    • 5.3 课程视频
    • 5.4 课后讨论
  • 6 The conditions for optimality
    • 6.1 授课内容
    • 6.2 课程PPT
    • 6.3 课程视频
    • 6.4 课后讨论
  • 7 Markov Reward Process
    • 7.1 授课内容
    • 7.2 课程PPT
    • 7.3 课程视频
    • 7.4 课后讨论
  • 8 Markov Decision Process
    • 8.1 授课内容
    • 8.2 课程PPT
    • 8.3 课程视频
    • 8.4 课后讨论
  • 9 Beyond classical search - Learning from the Nature
    • 9.1 授课内容
    • 9.2 课程PPT
    • 9.3 课程视频
    • 9.4 课后讨论
  • 10 Quantifying Uncertainty
    • 10.1 授课内容
    • 10.2 课程PPT
    • 10.3 课程视频
    • 10.4 课后讨论
  • 11 Probability reasoning
    • 11.1 授课内容
    • 11.2 课程PPT
    • 11.3 课程视频
    • 11.4 课后讨论
  • 12 Bayesian Inference
    • 12.1 授课内容
    • 12.2 课程PPT
    • 12.3 课程视频
    • 12.4 课后讨论
  • 13 Reinforcement Learning
    • 13.1 授课内容
    • 13.2 课程PPT
    • 13.3 课程视频
    • 13.4 课后讨论
  • 14 Dynamic Programming
    • 14.1 授课内容
    • 14.2 课程PPT
    • 14.3 课程视频
    • 14.4 课后讨论
  • 15 Lecture Summary
    • 15.1 授课内容
    • 15.2 考后分析
授课内容

上课日期:第六周 2020.10.14 3-4节,西校区工程中心204

出勤统计:应到41/实到40/迟到0/请假1(徐炜涛)

在强化学习中,马尔科夫决策过程(Markov decision process, MDP)是对完全可观测的环境进行描述的,也就是说观测到的状态内容完整地决定了决策的需要的特征。几乎所有的强化学习问题都可以转化为MDP。本讲是理解强化学习问题的理论基础。


相较于马尔科夫奖励过程,马尔科夫决定过程多了一个行为集合A,它是这样的一个元组: <S, A, P, R, γ>。看起来很类似马尔科夫奖励过程,但这里的P和R都与具体的行为a对应,而不像马尔科夫奖励过程那样仅对应于某个状态,A表示的是有限的行为的集合。