
P2_连续控制:Udacity深度强化学习纳米学位课程项目2-机械臂控制
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
本项目为Udacity深度强化学习纳米学位课程第二部分,专注于通过连续控制算法优化机械臂运动路径,实现高效精准操作。
项目2:连续控制介绍
在这个项目中,您将使用一个特定的环境。在此环境中,双臂可以移动到目标位置。每当代理人的手靠近目标位置一步时,都会获得+0.1的奖励分数。因此,代理人需要尽可能长时间地保持其手在目标位置上。
观察空间由33个变量组成,分别对应于手臂的位置、旋转、速度和角速度等信息。每个动作是一个包含四个数字的向量,代表施加到两个关节上的扭矩值。该向量中的每一个数值应在-1至1之间。
分布式训练
对于此项目,您将获得两种不同的Unity环境版本:第一个版本仅包括一个代理;第二个版本则含有20个相同的代理副本,在各自的独立环境中运行。第二种版本非常适合那些采用多份(非交互且并行的)代理人副本来分散经验收集任务的方法和算法。
解决环境
请注意,您的项目提交只需满足上述两个版本中的任意一个即可。选择一:解决第一个版本
全部评论 (0)
还没有任何评论哟~


