
Reinforcement_Learning_Tutorials_in_Chinese: 中文强化学习教程
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
本项目提供一系列详细的中文强化学习教程,涵盖基础概念、算法实现及实际应用案例,适合初学者和进阶学习者参考。
Reinforcement_Learning_Tutorials_in_Chinese是我个人在学习强化学习过程中所做的笔记的GitHub仓库。如果发现任何错误或有任何建议,请随时提出issue或者直接联系我。
1. 强化学习基础(David Silver版本)
1.1 马尔科夫决策过程(Markov Decision Process):马尔科夫决策过程是描述环境模型的一种方式,用于强化学习框架中。
1.2 动态规划(Dynamic Programming):动态规划使用马尔可夫决策过程作为环境的模型,并通过策略评估和改进来获得基于最优价值函数的最优策略。
1.3 无模型预测(Model-Free Prediction):估计未知MDP的价值函数。从已知策略出发,得出其对应的价值函数的过程称为预测问题。
1.4 无模型控制(Model-Free Control):优化一个未知的环境。
全部评论 (0)
还没有任何评论哟~


