1.基于DDPG和LSTM的无地图机器人路径导航方法,其特征是,包括如下步骤:获取机器人的当前的状态信息及目标位置信息;
将状态信息及目标相对位置输入至训练好的DDPG‑LSTM模型中输出最优可执行动作数据,使得机器人完成无碰撞的路径导航;
所述DDPG‑LSTM模型基于DDPG网络,将DDPG网络的Actor网络设置为卷积神经网络与LSTM级联的结构,使得模型输出机器人最优可执行动作数据。
2.如权利要求1所述的基于DDPG和LSTM的无地图机器人路径导航方法,其特征是:所述机器人的可执行动作数据包括机器人动作的角速度和线速度;
或者
所述当前状态信息包括机器人所处的环境信息。
3.如权利要求1所述的基于DDPG和LSTM的无地图机器人路径导航方法,其特征是:DDPG‑LSTM模型基于DDPG网络,将DDPG网络的Actor网络设置为卷积神经网络与LSTM级联的结构,具体为:DDPG算法网络包括Actor网络和Critic网络,其中Actor网络包括CNN模型和LSTM模型,CNN模型输出层连接LSTM模型的输入端。
4.如权利要求3所述的基于DDPG和LSTM的无地图机器人路径导航方法,其特征是:CNN模型包括依次连接的输入层、隐藏层以及输出层,所述输入层用于接收机器人的当前状态信息及目标位置数据;隐藏层卷积神经网络层和全连接网络层,卷积神经网络层用于处理激光测距传感器检测的当前状态信息,提取环境特征信息,全连接网络层用于根据接收的环境特征信息以及目标位置信息,通过输出层输出角速度和线速度。
5.如权利要求3所述的基于DDPG和LSTM的无地图机器人路径导航方法,其特征是:LSTM模型包括多个神经网络单元,其中一个神经网络单元用于接收CNN模型的当前输出速度及LSTM模型之前输出的多个最终速度,按照时间序列采用长短期记忆算法输出最终速度作为机器人执行的角速度和线速度。
6.如权利要求1所述的基于DDPG和LSTM的无地图机器人路径导航方法,其特征是:训练DDPG‑LSTM模型的方法,包括如下步骤:初始化机器人的导航环境、起始坐标设置以及目标点;
获取机器人的当前状态信息,将当前状态信息和目标位置信息作为输入,输入到DDPG‑LSTM模型中,模型输出线速度和角速度,以使机器人根据该线速度和角速度执行动作,到达下一个状态,得到动作的奖励值,完成一个回合的操作;
将本回合的数据存储到经验回放池中,作为训练数据;
当经验回放池的数据达到设定的数量要求,采用经验回放机制对DDPG‑LSTM模型进行训练。
7.基于DDPG和LSTM的无地图机器人路径导航系统,其特征是:包括:机器人状态检测装置和机器人,所述机器人执行权利要求1‑6任一项所述的基于DDPG和LSTM的无地图机器人路径导航方法。
8.基于DDPG和LSTM的无地图机器人路径导航系统,包括:数据获取模块:被配置为用于获取机器人的当前的状态信息及目标位置信息;
导航模块:被配置为用于将状态信息及目标相对位置输入至训练好的DDPG‑LSTM模型中输出最优可执行动作数据,使得机器人完成无碰撞的路径导航;
所述DDPG‑LSTM模型基于DDPG网络,将DDPG网络的Actor网络设置为卷积神经网络与LSTM级联的结构,使得模型输出机器人最优可执行动作数据。
9.一种电子设备,其特征是,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成权利要求1‑6任一项方法所述的步骤。
10.一种计算机可读存储介质,其特征是,用于存储计算机指令,所述计算机指令被处理器执行时,完成权利要求1‑6任一项方法所述的步骤。