
RNN-RL:强化学习与递归神经网络的实验研究。
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
Pytorch中的循环强化学习研究探索了循环强化学习与递归神经网络的结合。请注意,本仓库的代码主要基于Scott Fujimotos的成果。当前的主要目标是深入理解将递归神经网络(RNN)与深度增强学习相结合时可能带来的影响。该项目旨在提供关于强化学习算法在训练过程中如何有效利用内存的宝贵见解,特别是针对策略梯度算法,如Proximal Policy Optimization (PPO)。这类算法需要在整个轨迹上进行训练,并通常需要丢弃RNN的记忆存储。然而,一个值得探讨的问题是:是否有可能保留每个时间步的隐藏状态,并将其作为独立的“批次”项来处理?对于非策略算法,例如Deep Deterministic Policy Gradient (DDPG),情况变得更加复杂。在整个轨迹上进行训练的简单方法在计算上往往是不切实际的,尤其是在没有强制执行特定轨迹长度的情况下。另一种可行方案是在不使用RNN记忆的情况下,按时间步进行训练。但这种方式会牺牲与使用RNN相关的优势。此外,还可以选择保持RNN的隐藏状态与每个时间步关联;然而,随着时间步长在内存中累积并网络不断学习新的内部表示,这些隐藏状态可能会...
全部评论 (0)
还没有任何评论哟~


