1.基于先验知识与DQN算法的多机器人路径规划方法,其特征在于,包括以下步骤:S1:初始化多机器人系统的迭代次数阈值、探索步数阈值、先验知识、先验规则、经验池、迭代次数和探索步数,所述先验知识根据单个机器人的最优路径生成,所述先验规则包括状态序列 动作序列 特殊状态序列 和先验Q值向量Qp,当出现特殊状态时,最优动作选择策略为 然后通过先验知识初始化Q表和targetQ网络;
S2:判断迭代次数是否大于迭代次数阈值,若是:则执行步骤S5;若否:则初始化当前状态参数st和探索步数,再执行下一步骤;
S3:判断探索步数是否大于探索步数阈值,若是:则执行迭代次数自加一,再返回步骤S2;若否:则执行下一步骤;
S4:判断是否出现特殊状态 若是:则选取先验Q值向量Qp的最大先验Qpn对应的动作指令at;若否:则根据ε‑greedy策略生成动作指令at;然后,根据动作指令at计算生成机器人执行动作指令at后的运行状态参数st+1和奖赏函数rt,并将(st,at,rt,st+1)存储到经验池;最后,更新targetQ网络,执行探索步数自加一,再返回步骤S3;
S5:获取targetQ网络,根据预设的初始状态参数从targetQ网络中获取动作指令,并重复执行动作指令生成状态参数,根据状态参数选取动作指令,当生成的状态参数等于预设的目标状态参数时,生成得到多机器人系统的最优路径;
步骤S1中的单个机器人的最优路径,其路径的规划包括:S101:初始化单机器人系统的探索因子、最大迭代次数、终止状态参数、目标状态参数、最大计数阈值、开始更新时刻、迭代次数、探索步数、动作值函数、状态‑动作对的访问次数、成功路径、成功路径储存表;
S102:判断迭代次数是否大于最大迭代次数,若是:则执行步骤S106;若否:则初始化当前状态参数,再执行下一步骤;
S103:生成一个随机数,比较随机数和探索因子后生成一个动作指令,根据该动作指令计算生成机器人执行该动作指令后的运行状态参数和奖赏函数;然后,判断运行状态参数是否等于终止状态参数,若是:则继续判断运行状态参数是否等于目标状态参数,若等于,则将成功路径存储到成功路径储存表中,执行迭代次数自加一,再返回步骤S102,若不等于,则执行迭代次数自加一,再返回步骤S102;若否:则执行下一步骤;
S104:判断开始更新时刻是否小于等于探索步数,若是:则存储奖赏函数,执行状态‑动作对的访问次数自加一,再执行下一步骤;若否:则判断状态‑动作对的访问次数是否等于最大计数阈值,若是,则更新动作值函数,再执行下一步骤,若否,则执行下一步骤;
S105:将运行状态参数存储到成功路径中,执行探索步数自加一,再返回步骤S103;
S106:获取动作值函数,根据预设的初始状态参数从动作值函数中选取动作指令,并重复执行动作指令生成状态参数,根据状态参数选取动作指令,当生成的状态参数等于预设的目标状态参数时,得到单机器人系统的最优路径。
2.如权利要求1所述的基于先验知识与DQN算法的多机器人路径规划方法,其特征在于:步骤S1中还初始化Q网络,并随机生成Q网络的网络权重ω;然后,在初始化targetQ网络时,令targetQ网络的网络权重
3.如权利要求2所述的基于先验知识与DQN算法的多机器人路径规划方法,其特征在于:步骤S4中,更新targetQ网络包括:S401:从经验池中随机选取minibatch的transitions(sj,aj,rj,sj+1),计算动作值函数yj的值,再执行下一步骤;
2
S402:采用梯度下降法更新(yj‑Q(st,aj,ω)) 和Q网络的网络权重ω,执行预设的时间步自加一,再执行下一步骤;
S403:判断时间步是否等于预设的时间步阈值,若是:则更新targetQ网络,执行网络权重 执行探索步数自加一,执行时间步阈值清零,再返回步骤S3;若否:则执行探索步数自加一,再返回步骤S3。
4.如权利要求3所述的基于先验知识与DQN算法的多机器人路径规划方法,其特征在于:步骤S401中,计算动作值函数yj的值时,判断j+1是否为终点,若是:则执行yj=rj,式中rj为第j步的奖赏函数;若否:则执行 式中rj为第j步的奖赏函数,γ为折扣因子, 为动作值函数的预估值。
5.如权利要求1所述的基于先验知识与DQN算法的多机器人路径规划方法,其特征在于:步骤S4中所述的根据ε‑greedy策略生成动作指令at时,随机生成σ∈(0,1),判断σ是否大于预设的探索因子ε,若是:则执行动作指令 若否:则生成一个随机动作指令at。
6.如权利要求1所述的基于先验知识与DQN算法的多机器人路径规划方法,其特征在于:步骤S104中,更新动作值函数的公式为Q(s,a)=U(s,a)/h,式中Q(s,a)为动作值函数,U(s,a)为存储的奖赏函数,h为最大计数阈值;其中,s表示机器人的状态。
7.如权利要求1所述的基于先验知识与DQN算法的多机器人路径规划方法,其特征在于:步骤S103中,若运行状态参数等于终止状态参数且等于目标状态参数,则在执行步骤S102之前,执行预设的成功寻路次数自加一,成功路径数自加一。
8.如权利要求7所述的基于先验知识与DQN算法的多机器人路径规划方法,其特征在于:步骤S102中,若迭代次数小于最大迭代次数,则先判断成功寻路次数是否大于预设的最大成功寻路次数,若是:则更新探索因子的值,再执行下一步骤;若否:则执行下一步骤。
9.如权利要求8所述的基于先验知识与DQN算法的多机器人路径规划方法,其特征在于:步骤S102中,更新探索因子的值时,先判断成功路径数是否小于预设的最小路径数,若是:则执行ε′=ε+eSize×(Minpathnum‑pathnun),ε表示更新前的探索因子,ε′表示更新后的探索因子,并令ε′=ε,式中,eSize为预设的探索因子单次更新步长,MinPathNum为最小路径数,PathNum为成功路径数;若否:则执行ε′=ε‑eSize×(i/eCycle),ε表示更新前的探索因子,ε′表示更新后的探索因子,并令ε′=ε,式中,eSize为预设的探索因子单次更新步长,i为迭代次数,eCycle为预设的探索因子改变周期。