
Maintenance Learning Course Materials: 讲义,包含解决方案的教程任务及帕德博恩大学组织的强化活动...
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
本课程材料旨在提供维护学习所需的全面资源,包括解决方案导向的任务和由帕德博恩大学精心设计与组织的强化实践活动。
强化学习课程资料包括讲义、教程任务(附带解决方案)以及帕德博恩大学主办的在线视频讲座。整个课程材料的源代码是开放获取的,我们诚挚地邀请所有人使用它进行自学或设置自己的课程。
### 演讲内容
- 强化学习导论
- 马尔可夫决策过程
- 动态编程
- 蒙特卡洛方法
- 时差学习
- n步自举法
- 使用表格方法进行计划和学习
- 监督下的函数逼近
- 基于值的控制与策略上预测(基于函数)
- 资格跟踪政策梯度法
### 第一部分摘要:有限状态和动作空间中的强化学习
### 第二部分摘要:课程完成及展望
全部幻灯片内容涵盖科学计算基础、马尔可夫链的基本问题解决方法,以及使用Python手动处理奖励与决策。练习包括:
- 啤酒学士和动态编程(最短路径问题)
- 蒙特卡洛学习助您穿越赛道
- 使用时差学习更快地驱动表格n步法稳定倒立摆
- 通过整合学习与计划来促进倒立摆(Dyna框架)
- 在监督下预测实际电驱动系统的运行行为
高级功能包括:
- 使用函数逼近评估山地车问题中给定代理的性能
- 半梯度Sarsa和最小二乘策略迭代从山车谷逃生
- 使用Sarsa(Lambda)改进基于价值的学习解决方案
- 采用REINFORCE与演员批评方法登陆月球
### 引文说明:
请使用以下BibTeX格式引用本课程材料。
全部评论 (0)
还没有任何评论哟~


