课前指导
上一节
下一节
“强化学习”内容包括强化学习定义(马尔科夫决策过程)、策略优化与策略评估、强化学习参数学习(Q-Learning)和深度强化学习。
人工智能领域的一个主要研究目标是实现完全自主的智能体,该智能体能与其所处环境进行交互,根据环境所提供的奖励反馈或惩罚反馈来学习所处状态可施加的最佳行动(如碰墙后折返),通过运用“尝试-试错(trial and error)”与平衡“探索(未知空间)与利用(已有经验)(exploration vs. exploitation)”等机制不断进步,改进行动策略。强化学习(Reinforcement Learning, RL) 就是这样一种赋予智能体自监督学习能力,使其能够自主与环境交互,做出序列决策,完成序列化形式的任务,向“学会学习” (learning to learn)这一能力塑造目标而努力。
强化学习(围棋序列落子策略学习)、深度学习(编码感知黑白相间棋盘)和蒙特卡洛树搜索(从比宇宙原子还多的落子集合中进行随机采样以在利用和探索中寻求平衡)是AlphaGo所使用的三个法宝。
在与环境交互过程中,智能体从反馈中调整策略,“屡战屡败、屡败屡战”,最后完成学习任务,学习得到应对环境和完成任务的最优策略。

