
Q-learning(无模型值迭代)算法应用于确定性清洁机器人的清洁任务,并结合epsilon-greedy探索策略...
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
Q-learning 结合 epsilon-greedy 探索策略的确定性清洁机器人算法版本一,旨在解决清洁机器人需要收集废弃罐头并为其充电电池充电这一问题。 状态空间详细描述了机器人的位置,而动作空间则定义了机器人的运动方向,具体而言,机器人可以向左或向右移动。值得注意的是,第一个状态(1)和最后一个状态(6)都被定义为终端状态。 算法的目标在于寻找能够最大化累积回报的最优策略,该策略能够从任何初始状态出发执行。 该算法属于强化学习范畴内的技术,具体细节参考了算法2-3,出自《使用函数逼近器的强化学习和动态规划》一书 (@book{busoniu2010reinforcement, title={使用函数逼近器的强化学习和动态规划}, 作者={Busoniu,Lucian 和 Babuska,Robert 和 De Schutter,Bart 和 Ernst,Damien})。
全部评论 (0)
还没有任何评论哟~


