课程门户-章节详情

王佳婧

1 课程介绍
- 1.1 课程简介
- 1.2 课程大纲
- 1.3 教学日历
2 绪论
- 2.1 课前指导
- 2.2 教学课件
- 2.3 Video-绪论
- 2.4 Video-人工智能芯片
3 逻辑与推理
- 3.1 课前指导
- 3.2 课前预习
- 3.3 教学课件
- 3.4 Video-路径排序算法
- 3.5 Video-因果推理
4 搜索求解
- 4.1 课前指导
- 4.2 教学课件
- 4.3 Video-启发式搜索
5 统计学习：有监督学习
- 5.1 课前指导
- 5.2 教学课件
6 统计机器学习：无监督学习
- 6.1 课前指导
- 6.2 教学课件
7 深度学习
- 7.1 课前指导
- 7.2 教学课件
8 强化学习
- 8.1 课前指导
- 8.2 教学课件
9 人工智能博弈
- 9.1 课前指导
- 9.2 教学课件
10 群智能算法
- 10.1 课前指导
- 10.2 教学课件
11 人工智能未来发展和趋势
- 11.1 课前指导
- 11.2 教学课件
- 11.3 人工智能的未来：数据知识双驱动

课前指导

“强化学习”内容包括强化学习定义（马尔科夫决策过程）、策略优化与策略评估、强化学习参数学习（Q-Learning）和深度强化学习。

人工智能领域的一个主要研究目标是实现完全自主的智能体，该智能体能与其所处环境进行交互，根据环境所提供的奖励反馈或惩罚反馈来学习所处状态可施加的最佳行动（如碰墙后折返），通过运用“尝试-试错(trial and error)”与平衡“探索（未知空间）与利用（已有经验）（exploration vs. exploitation）”等机制不断进步，改进行动策略。强化学习(Reinforcement Learning, RL) 就是这样一种赋予智能体自监督学习能力，使其能够自主与环境交互，做出序列决策，完成序列化形式的任务，向“学会学习” （learning to learn）这一能力塑造目标而努力。

强化学习（围棋序列落子策略学习）、深度学习（编码感知黑白相间棋盘）和蒙特卡洛树搜索（从比宇宙原子还多的落子集合中进行随机采样以在利用和探索中寻求平衡）是AlphaGo所使用的三个法宝。

在与环境交互过程中，智能体从反馈中调整策略，“屡战屡败、屡败屡战”，最后完成学习任务，学习得到应对环境和完成任务的最优策略。

图片预览