
MDP-DP-RL:马尔可夫决策过程、动态规划以及强化学习的源代码。
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
MDP-DP-RL 本项目的核心目标是独立地构建所有动态规划和强化学习算法,具体而言,这意味着除了利用基本的 NumPy 和 SciPy 工具外,不依赖于任何标准库。 这一“从头开始开发”的设计理念旨在为学习者提供深刻的理解,只有通过亲身开发和使用这些代码,学生才能真正掌握相关概念。 我针对不同学习背景的学生群体,都以精确的编程实现技巧和算法作为课程的基础。 例如,在教授 Stanford CME 241:金融中的随机控制问题的强化学习课程时,我便会采用该代码库。 鉴于代码的原始性以及目前主要处于增长模式的状态(自 2018 年 8 月起使用),因此对于关于代码可读性、性能以及任何可能出现的错误方面的反馈都将不胜感激。 项目最初着手构建有限马尔可夫过程(又称马尔可夫链)、马尔可夫奖励过程(MRP)和马尔可夫决策过程(MDP)的基础数据结构。随后,重点转向动态规划 (DP) 算法的实现,并力求在代码内部以清晰明确的数学术语进行阐述。
全部评论 (0)
还没有任何评论哟~


