1.一种基于自适应动态规划的智能无人集群系统最优一致性控制方法,其特征在于,包括:S1:将多智能体系统中的智能体分为两类,一类为领导者智能体,其不会接收到来自邻居智能体发送的信息,另一类为跟随者智能体,其会根据所接收到邻居智能体发送的信息对自身行为做出调整;
所述每个智能体发送的信息包括自身的状态信息和控制策略;
S2:通过智能体自身的传感器获取邻居跟随者智能体与领导者智能体之间状态信息,并根据状态信息计算智能体的局部跟踪误差;
S3:为每个智能体设置用于存放其当前误差、下一时刻误差和控制策略的经验池;
S4:根据智能体的发送信息和智能体之间的局部跟踪误差构造用于评价智能体当前控制策略优劣的动作状态值函数;
S5:设计自适应动态规划算法计算用于评价智能体当前控制策略优劣的动作状态值函数,并通过梯度更新的方式来计迭代更新每个智能体的控制策略;
所述自适应动态规划算法:使用自适应动态参数来调整自适应动态规划算法的动态因子ρl,动态因子ρl由小到大的变化,初始时,动态因子ρl从接近0开始,自适应动态规划算法通过值迭代找到可容许控制策略,然后随着动态因子ρl逐渐增大接近1,在可容许控制策略的基础上找到最优控制策略;该过程表示为:ρl=tanh(bIn(a+l))
其中,b表示第一常数,a表示第二常数,l表示迭代指数,a>1且b>0,动态因子ρl为从0到1的单调增加函数;
设计自适应动态规划算法计算用于评价智能体当前控制策略优劣的动作状态值函数,并通过梯度更新的方式来计迭代更新每个智能体的控制策略,包括:初始化迭代指数l=0,并为所有的智能体初始化一个任意的控制策略计算动作状态值函数:其中,表示融入迭代指数的动作状态值函数,ei(k)表示第k时刻智能体i的局部跟踪误差,μ表示智能体的发送的信息,表示用来评价智能体在第k时刻控制策略的效用函数,τ表示强化学习中的折扣因子,ei(k+1)表示下一时刻智能体i的局部跟踪误差;
用动作状态价值函数更新控制策略:
其中,ri( )表示第i个智能体的效用函数;
随着迭代的进行,若动作状态价值函数和控制策略都能够收敛到最优值,则智能体的学习过程完毕;
S6:使用神经网络来分别近似控制策略和动作状态值函数,设置算法迭代的次数并重复执行S5中迭代更新动作状态值函数和控制策略的过程,当动作状态值函数与控制策略都收敛到一个足够小的值时,此时算法执行完毕,所有智能体获得最优的控制策略。
2.根据权利要求1所述的一种基于自适应动态规划的智能无人集群系统最优一致性控制方法,其特征在于,根据状态信息计算智能体的局部跟踪误差,包括:其中,ei(k)表示第k时刻智能体i的局部跟踪误差,bi表示牵制增益,若bi=1表示该智能体与领导者直接相连接,否则bi=0;aij表示第i个智能体与第j个智能体之间的连接权重,xj(k)表示第k时刻第j个智能体的状态向量,表示第i个智能体的邻居智能体的集合,xi(k)表示第i个智能体在第k时刻的状态信息,x0(k)表示第k时刻领导者的状态信息。
3.根据权利要求1所述的一种基于自适应动态规划的智能无人集群系统最优一致性控制方法,其特征在于,所述S3中的经验池有容量大小限制,当经验池的容量达到一定程度,则会删除存放时间最长的一组或多组数据,同时将新生成的数据存入。
4.根据权利要求1所述的一种基于自适应动态规划的智能无人集群系统最优一致性控制方法,其特征在于,所述用于评价智能体当前控制策略优劣的动作状态值函数,包括:Qi(ei(k),μ)=ci(ei(k),μ)+τQi(ei(k+1),ui(ei(k+1)))其中,Qi(ei(k),μ)表示用于评价智能体当前控制策略优劣的动作状态值函数,ei(k)表示第k时刻智能体i的局部跟踪误差,μ表示智能体的发送的信息,表示用来评价智能体在第k时刻控制策略的效用函数,ui(k)表示第k时刻智能体i的控制策略,T表示转置操作,Qii≥0,Rii≥0表示正定的权重矩阵,τ∈[0,1]表示强化学习中的折扣因子,ei(k+1)表示下一时刻智能体i的局部跟踪误差。
5.根据权利要求1所述的一种基于自适应动态规划的智能无人集群系统最优一致性控制方法,其特征在于,使用神经网络来分别近似控制策略和动作状态值函数,设置算法迭代的次数并重复执行S5中迭代更新动作状态值函数和控制策略的过程,包括:使用神经网络来分别近似性能指标函数和控制策略,使用了Actor-Critic神经网络框架来求解最优控制策略;其中Actor神经网络用于近似最优控制策略,Critic神经网络用于近似性能指标函数;
Actor神经网络的表达式为:
其中,表示Actor神经网络估计出来的控制策略,表示Actor神经网络的第一连接权重,T表示转置操作,σai()表示神经网络actor的激活函数,表示Actor神经网络的第二连接权重,θai(k)表示神经网络actor的调整矩阵;
Critic神经网络的表达式为:
其中,表示Critic神经网络估计出来的动作状态值函数,ei(k)表示第k时刻智能体i的局部跟踪误差,μ表示智能体的发送的信息,表示Critic神经网络的第一连接权重,T表示转置操作,σci( )表示神经网络Critic的激活函数,表示Critic神经网络的第二连接权重,θci(k)表示神经网络Critic的调整矩阵。
6.根据权利要求1所述的一种基于自适应动态规划的智能无人集群系统最优一致性控制方法,其特征在于,当性能指标函数与控制策略都收敛到一个足够小的值时,则算法执行完毕,多智能体系统达到最优一致性:limk→∞||e(k)||=0
其中,k表示时间,e(k)表示全局跟踪误差,||e(k)||表示求全局跟踪误差的范数,eN(k)表示第N个局部跟踪误差,T表示转置操作,RNp表示实数域矩阵。