1.基于改进DQN算法的移动机器人路径规划方法,其特征在于,步骤包括:构建路径规划的二维栅格环境地图;
基于所述二维栅格环境地图,构建DQN路径规划模型;
优化所述DQN路径规划模型,得到最终模型;
利用所述最终模型,完成移动机器人的路径规划。
2.根据权利要求1所述的基于改进DQN算法的移动机器人路径规划方法,其特征在于,构建的所述二维栅格环境地图中,每个方格大小相同且分布均匀;同时,其包含四种属性的方格,分别为动机器人初始所处的起点、可行区域、障碍物以及终点;移动机器人与目标点之间为联通状态。
3.根据权利要求1所述的基于改进DQN算法的移动机器人路径规划方法,其特征在于,构建所述DQN路径规划模型的方法包括:将深度神经网络与Q-learning算法相结合,利用神经网络作为函数逼近来代替Q值表,并对值函数进行计算,以神经网络作为状态-动作值函数的载体,通过不断迭代更新神经网络的f参数θ来逼近状态-动作值函数,定义为:f(s,a,θ)≈Q(s,a)
其中,f(s,a,θ)表示近似替代函数,通过神经网络的输出代替Q值;s表示当前状态;a表示动作。
4.根据权利要求1所述的基于改进DQN算法的移动机器人路径规划方法,其特征在于,优化所述DQN路径规划模型的方法包括:设计人工势场指导动作选择方法,替换所述DQN路径规划模型中的传统决策方法;
设计分类高价值优先经验回放方法,替换所述DQN路径规划模型中的传统经验回放方法。
5.根据权利要求4所述的基于改进DQN算法的移动机器人路径规划方法,其特征在于,所述人工势场指导动作选择方法通过将人工势场引入DQN算法中,并结合时变动态贪婪策略,减少无用探索,加快前期训练收敛速度,具体包括:选用引力值作为动作选择的指导,将引力定义F(p)为:
其中,k
根据人工势场引力值计算出当前动作的最优动作,并将其引入4种随机动作选择中,5种动作的选择概率如下:其中,k表示引力值折扣因子,用于平衡引力值,保证人工势场最优动作的选择概率低于随机动作概率,避免出现引力值过大影响随机动作选择的情况。
6.根据权利要求4所述的基于改进DQN算法的移动机器人路径规划方法,其特征在于,所述分类高价值优先经验回放方法由经验储存和经验采样两个阶段组成;在经验储存阶段,设置正负双经验池,根据立即奖励值对经验样本进行分类储存;在经验采样阶段,在正经验池中提出高价值优先经验采样方法,将Q值与TD误差结合,共同作为样本优先级的评价标准;负经验池中仍采用随机均匀采样方法;正经验池中经验e的优先级表示为:其中,P