1.一种机器人动态路径规划方法,其特征在于,所述方法包括:根据采样点的扩张方向,构建多个采样区域;其中,机器人选择不同的所述采样区域对应不同的动作;
基于避障能力瞬时奖励函数、目标点可达奖励函数以及最短路径牵引奖励函数,构建采样点瞬时奖励函数;
基于机器人对应的状态、机器人对应的执行动作以及权重,构建神经网络,并通过所述采样点瞬时奖励函数与时序差分目标,对所述神经网络中的权重进行更新,以确定执行动作的Q值函数;
根据更新后的权重确定出参考神经网络,通过所述参考神经网络预测的Q值函数进行动作选取,以实现机器人动态路径规划。
2.根据权利要求1所述的一种机器人动态路径规划方法,其特征在于,所述根据采样点的扩张方向,构建多个采样区域,具体包括:设定采样点位置位于预设立方体的重心,以所述重心作为动作初始位置;
将所述预设立方体划分为多个区域,所述多个区域分别对应不同的动作;
其中,所述不同的动作至少包括上左前、上左后、上右前、上右后,下左前,下左后,下右前以及下右后。
3.根据权利要求1所述的一种机器人动态路径规划方法,其特征在于,所述基于避障能力瞬时奖励函数、目标点可达奖励函数以及最短路径牵引奖励函数,构建采样点瞬时奖励函数之前,所述方法还包括:基于采样点与障碍物之间的距离,以及第一预设距离阈值,构建所述避障能力瞬时奖励函数;
基于所述采样点与目标点之间的距离,以及第二预设距离阈值,构建所述目标点可达奖励函数;
确定出所述采样点与树上的最近节点之间的第一直线,以及确定出起始点与所述目标点之间的第二直线,基于所述第一直线与所述第二直线之间的夹角,以及预设夹角阈值,构建所述最短路径牵引奖励函数。
4.根据权利要求3所述的一种机器人动态路径规划方法,其特征在于,所述基于所述第一直线与所述第二直线之间的夹角,以及预设夹角阈值,构建所述最短路径牵引奖励函数,具体包括:基于函数:
;
构建所述最短路径牵引奖励函数;其中, 为最短路径牵引奖励; 为所述第一直线与所述第二直线之间的夹角。
5.根据权利要求1所述的一种机器人动态路径规划方法,其特征在于,所述基于避障能力瞬时奖励函数、目标点可达奖励函数以及最短路径牵引奖励函数,构建采样点瞬时奖励函数,具体包括:基于预设函数:
;
构建采所述样点瞬时奖励函数;其中, 为避障能力瞬时奖励; 为目标点可达奖励; 为最短路径牵引奖励;为采样点瞬时奖励。
6.根据权利要求1所述的一种机器人动态路径规划方法,其特征在于,所述通过所述采样点瞬时奖励函数与时序差分目标,对所述神经网络中的权重进行更新之前,所述方法还包括:基于当前状态选择出当前动作,基于所述当前状态与所述当前动作以及所述神经网络确定出当前价值;
执行所述当前动作,通过所述采样点瞬时奖励函数获取采样点瞬时奖励与新的状态,抽样产生新的动作;
基于所述神经网络、所述新的状态以及所述新的动作,确定出新的价值;
通过所述采样点瞬时奖励与所述新的价值,确定出时序差分目标。
7.根据权利要求6所述的一种机器人动态路径规划方法,其特征在于,所述通过所述采样点瞬时奖励函数与时序差分目标,对所述神经网络中的权重进行更新,具体包括:确定出当前价值与所述时序差分目标之间的误差;
根据梯度下降法,确定出神经网络的权重参数梯度;
基于所述误差、所述权重参数梯度,对所述神经网络中的权重进行更新。
8.根据权利要求7所述的一种机器人动态路径规划方法,其特征在于,所述确定出当前价值与所述时序差分目标之间的误差,具体包括:基于函数:
;
得到新的动作;其中, 为新的状态, 为新的动作, 为所述神经网络的权重;
为新的价值, 为输入新的状态、新的动作以及权重后的神经网络;
基于函数:
;
确定出所述时序差分目标;其中, 为采样点瞬时奖励, 为新的价值; 为时序差分目标;为折扣因子;
基于函数:
;
确定出当前价值与所述时序差分目标之间的误差;其中, 为当前价值; 为所述时序差分目标; 为当前价值与所述时序差分目标之间的误差。
9.一种机器人动态路径规划设备,其特征在于,该设备包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该设备执行权利要求1‑8中的任一项所述的方法。
10.一种非易失性计算机存储介质,存储有计算机可执行指令,其特征在于,所述计算机可执行指令能够执行权利要求1‑8任一项所述的方法。