
Driver_Critic:基于深度确定性策略梯度算法的CarRacing-v0环境解决方案
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
《Driver_Critic》提出了一种在CarRacing-v0环境中应用深度确定性策略梯度(DDPG)算法解决智能体控制问题的方法,有效提升了赛车模拟任务中的驾驶性能和稳定性。
司机批评家在OpenAI Gym的CarRacing-v0环境中使用DDPG算法(深度确定性策略梯度)来解决问题。快速开始所需的依赖关系包括:Gym 0.18.0,Tensorflow 2.4.0和Matplotlib 3.3.4。当前版本的CarRacing-v0存在内存错误,为了解决这个问题,我们需要从Gym GitHub手动下载最新的“car_racing.py”脚本。
正在运行的应用程序包括:
- 执行main_loop.py以训练新模型。
- 按空格键观看进度。
- 通过执行evaluate_loop.py来检查最佳解决方案。
DDPG算法由四个网络组成:演员、评论家、目标演员和目标评论家。这些网络用于评估演员并产生学习的目标值。这种方法旨在创建一个基类,作为每个连续动作任务的基础,并且可以通过继承该基类轻松实现更复杂的解决方案。CarRacing-v0是一种计算机视觉环境。
全部评论 (0)
还没有任何评论哟~


