1.一种基于模糊推理与强化学习的移动机器人轨迹跟踪控制方法,其特征在于,包括:建立移动机器人运动学模型,基于所述移动机器人运动学模型,获取移动机器人实际轨迹;
基于移动机器人期望轨迹和所述机器人实际轨迹,获取轨迹误差和误差变化率;
将所述轨迹误差和误差变化率输入到模糊PID控制器和强化学习控制器,输出前轮转向角;
将所述轨迹误差和误差变化率输入到模糊PID控制器和强化学习控制器,输出前轮转向角包括:将所述轨迹误差和误差变化率输入到所述模糊PID控制器,使用重心法获得去模糊化输出,即获取第一前轮转向角;
将所述轨迹误差和误差变化率输入到所述强化学习控制器,获取第二前轮转向角;
将所述轨迹误差和误差变化率输入到所述模糊PID控制器,获取第一前轮转向角包括:对所述轨迹误差进行微分处理,获取误差变化率;
对所述轨迹误差和误差变化率进行模糊化,获取模糊化输入;
结合模糊规则库,对所述模糊化输入进行求解,获取反模糊输出;
基于所述反模糊输出,结合控制器参数基础值,输出所述第一前轮转向角;
将所述轨迹误差和误差变化率输入到所述强化学习控制器,获取第二前轮转向角前还包括:基于所述移动机器人运动学模型,结合奖励函数,获取上一时刻奖励值;
将所述轨迹误差和误差变化率输入到所述强化学习控制器,获取第二前轮转向角包括:将所述轨迹误差和误差变化率利用隶属度函数进行模糊化处理,获取当前时刻状态量;
将所述当前时刻状态量和上一时刻奖励值输入到DDPG模型,获取所述第二前轮转向角,其中,所述DDPG模型通过实时训练而成;
所述DDPG模型通过实时训练包括:利用经验放回机制,从所述DDPG模型中的经验池中抽取不同时刻的状态、所输出动作、得到的反馈奖励值以及新的状态进行训练;
基于所述第一前轮转向角和第二前轮转向角,获取所述前轮转向角;
基于所述前轮转向角,对所述移动机器人进行控制。
2.根据权利要求1所述的一种基于模糊推理与强化学习的移动机器人轨迹跟踪控制方法,其特征在于,所述移动机器人运动学模型为:其中,为x轴方向的速度,为y轴方向的速度,为角速度,V为移动机器人质心处的速度,表示为移动机器人朝向与参考坐标系X轴的夹角,l是前后轮间距,δf为前轮转角。
3.根据权利要求1所述的一种基于模糊推理与强化学习的移动机器人轨迹跟踪控制方法,其特征在于,所述第一前轮转向角为:其中,u(t)为模糊PID控制器的整体输出,Kp,Ki,Kd分别代表比例系数、积分系数、微分系数的基础值,e(t)代表t时刻的误差,Δkp代表比例系数变化值,Δki是积分系数变化值,Δkd微分系数变化值。
4.根据权利要求1所述的一种基于模糊推理与强化学习的移动机器人轨迹跟踪控制方法,其特征在于,所述DDPG模型包括:演员网络和评论家网络;
所述演员网络用于估计下一时刻状态量和动作量;
所述评论家网络用于估计下一时刻的状态量。