1.AI智能控制系统的IQL协同控制方法,其特征在于包括以下步骤:S1、对于由N个智能体组成的多智能体系统MAS,构建基于动态异步的虚拟控制器;
S2、在虚拟控制器中,引入具有多重干扰的抵消模型,抵消模型用于抵消MAS中存在的多重外部干扰和内部耦合干扰,从而稳定MAS的协同控制;
S3、对于IQL多智能体系统,利用虚拟控制器改进IQL多智能体系统的动作选择过程,将每个智能体都等效为相互关联的智能系统,而非独立个体,从而改进IQL多智能体系统在环境非稳定性下的控制输出效果;
S4、基于改进后的IQL多智能体系统,实现对N个智能体的协同控制;
所述的S1中,构建基于动态异步的虚拟控制器的过程为:S11、对于N个智能体,智能体i在时间t的状态表示为向量,其中i表示智能体的索引,,t表示时间,Rn表示n维实数向量空间;智能体i在时间t的控制输入为,Rm表示m维实数向量空间,则智能体i在时间t的动态行为由以下状态空间方程来表示:(1);
式中,和分别为MAS的系统矩阵和输入矩阵,为n行m列的实数矩阵构成的空间;为智能体i在时间t的非线性扰动项,描述了环境的不确定性和非线性干扰;
S12、引入虚拟控制器,并定义其为:(2);
式中,为本地反馈增益矩阵;是与智能体i相邻的智能体集合;为智能体i和智能体j间的耦合增益矩阵;为智能体j在时间t的状态向量,且;
S13、为提升MAS在非稳定环境下的响应速度,在中采用异步更新机制,即不同智能体能够在不同时间步进行状态更新,定义为智能体i的更新间隔时间,并定义更新函数如下:(3);
由此,在异步更新机制下的表达式为:(4);
式中,为智能体i上一个时间步的控制输入;
所述的S2中,引入具有多重干扰的抵消模型的方法为:S21、若MAS中存在p种独立干扰,则受到独立干扰的影响,表示为:(5);
式中,是对智能体i影响的增益矩阵;
S22、为抵消,在抵消模型中建立补偿差分器,使得:(6);
S23、此时,和在异步机制下表示为:(7);
S24、将代入式(1),得到:
(8);
S25、经过干扰补偿,简化为:
(9);
所述的S3中,利用虚拟控制器改进IQL多智能体系统的动作选择过程的方法为:S31、在MAS中引入IQL进行扩展,即为IQL多智能体系统,设定智能体i在时间t的状态为、动作为、奖励函数为,则其标准的Q-学习更新规则为:(10);
式中,α是学习率;γ是折扣因子;为智能体i下一个时间步的状态,表示智能体i的状态和动作值函数;是迭代后的;
S32、为了将各智能体视为一个整体,并利用虚拟控制器使得各智能体在动作选择时具备相互关联性,设计如下动作选择策略:定义一个关联矩阵,其中表示智能体i与智能体j在时间t的关联度,的值通过虚拟控制器的输出加权计算得到,表示为:(11);
式中,和分别表示由虚拟控制器输出的智能体i与智能体j在时间t的状态估计;是智能体在独立干扰为时的状态估计;
S33、基于,定义智能体i在时间t的稳定参数,更新规则为:(12);
式中,表示智能体j的状态和动作值函数;
S34、改进后的动作选择策略表示为:(13)。
2.根据权利要求1所述的AI智能控制系统的IQL协同控制方法,其特征在于:所述的S13中,当时,智能体i根据当前状态向量计算新的控制输入,即为;当时,智能体i保持上一个时间步的控制输入。
3.根据权利要求1所述的AI智能控制系统的IQL协同控制方法,其特征在于:利用虚拟控制器改进IQL多智能体系统的动作选择后,每个智能体在选择动作时,不仅考虑自身的Q值,还通过虚拟控制器的关联矩阵综合考虑邻近智能体的Q值,从而提升整体的协同性与稳定性,其中Q值为IQL的智能体价值参数,包括Q-Table和Q-function。
4.根据权利要求1所述的AI智能控制系统的IQL协同控制方法,其特征在于,还包括S5、利用李雅普诺夫候选函数,对MAS和IQL多智能体系统的稳定性进行分析。
5.根据权利要求4所述的AI智能控制系统的IQL协同控制方法,其特征在于,所述的S5中,对于引入了抵消模型的虚拟控制器,利用李雅普诺夫候选函数,对MAS的稳定性进行分析,过程为:对于李雅普诺夫候选函数,表示为:(14);
式中,是对称正定矩阵;是时间相关的耦合系数,R为实数集;其中,表示为:(15);
式中,和是调节参数;为智能体j在时间t的控制输入;
的导数表示为:
(16);
式中,是对t的一阶导数;
将式(9)结合至式(12)中,得到:(17);
式中,是正定矩阵;
此时,对于基于动态异步的虚拟控制器,满足:(18);
因此,适当选择、和,即可使得MAS在多重外部干扰和内部耦合干扰中保持渐进稳定性。
6.根据权利要求5所述的AI智能控制系统的IQL协同控制方法,其特征在于:所述的S5中,对于利用虚拟控制器改进了动作选择的IQL多智能体系统,利用李雅普诺夫候选函数,对IQL多智能体系统的稳定性进行分析,过程为:针对改进后IQL多智能体系统的李雅普诺夫候选函数表示为:(19);
式中,和分别表示智能体i与智能体j在时间t的目标状态,此时,李雅普诺夫函数的时间导数表示为:(20);
式中,、分别为迭代后的和;
结合式(1),得到:
(21);
式中,是干扰补偿项;因此,适当选择、、和,IQL多智能体系统的稳定性得以保证。