
DDPG_TF2:Keras和Tensorflow 2中实现的简单深度确定性策略梯度算法。
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
DDPG_TF2 在 TF2 环境中实现一个简洁明了的 DDPG 方案颇具挑战性,因此我便着手构建了一个。 DDPG 是一种无需构建任何模型即可运作的非策略算法,它能够有效地学习连续动作空间中的 Q 函数和策略。 该算法灵感来源于 Deep Q Learning,可以被视为在连续动作空间中应用的 DQN 的一种扩展。 DDPG 通过利用政策外数据以及 Bellman 方程来学习 Q 函数,随后再利用由此推导出的 Q 函数来指导和优化策略的学习过程。 在此 DDPG 实现中,最初会执行 n 次纯粹的探索步骤,其具体次数由 rand_steps 参数控制。 动作的选择则是在整个动作空间范围内进行均匀分布式的选择。 该方案的主要优势在于:随机(深度)模型估计能够提供连续(甚至无限)的动作空间范围。 为了促进动作空间探索,该算法采用了噪声过程,例如 Ornstein–Uhlenbeck 过程。 同时,通过经验重播技术可以有效地稳定学习过程,并充分利用以往的经验。 演员和评论家结构的设计巧妙地运用了目标模型,并通过 Polyak 平均的方式进行权重转移,从而在演员和评论家网络中实现目标模型的应用。 最后,该算法采用 Bellman 方程来精确描述每对 <状态, 动作> 的最佳 Q 值函数。
全部评论 (0)
还没有任何评论哟~


