1.基于协同训练模型改进IQL的多智能体协同控制方法,其特征在于包括以下步骤:S1、对传统生成式对抗网络GAN进行改进,建立跨域生成对抗网络CoGAN,步骤包括:S11、构建各个智能体的动态过程,其中包括两个智能体之间的相互作用;
S12、对于两个智能体之间的相互作用进行优化;
S13、获取各个智能体在训练过程中的对抗损失函数;
S14、建立关于反向平衡器的虚拟控制系统;
S2、构建鱼鳞预测算法,并鱼鳞预测算法将引入CoGAN中;
S3、基于鱼鳞预测算法和CoGAN,建立非线性协同系统,完成对深度协同对抗训练模型DCATM的构建,即为完成对IQL的改进,获得基于改进IQL的多智能体协同控制方法;
所述的S11中,构建各个智能体的动态过程的步骤为:S111、应用场景下的智能体数量设定为N,智能体集合agent表示为S112、第i个智能体的动态过程表示为:式中,
所述的S12中,对两个智能体之间的相互作用,即为对对于第i个智能体,其余N-1个智能体对第i个智能体的综合影响表示为式中,
所述的S13中,获取各个智能体在训练过程中的对抗损失函数的步骤为:S131、设定判别器网络为式中,
S132、第i个智能体在训练过程中的对抗损失函数式中,
所述的S14中,建立关于反向平衡器的虚拟控制系统的过程为:S141、将
S142、关于反向平衡器的虚拟控制系统表示为:式中,
S143、公式(5)使得:式中,
S144、由于
式中,
S145、将公式(8)和公式(9)带入公式(6),得到:S146、由于
式中,
S147、
当
当
当
其中,
S148、对公式(5)进行移项,得到式中,
通过公式(12),利用所述的S2中,构建鱼鳞预测算法的步骤为:S21、鱼鳞预测算法中,鱼鳞个数为N,即为与智能体的数量相同,每个鱼鳞对应一个智能体,每个鱼鳞的维度为D,所有鱼鳞的初始数据集合S22、每个鱼鳞关于调控对象的期望范围为S23、定义鱼鳞预测算法的参数差异为S24、通过鱼鳞差异矩阵关于
S25、设定
式中,
S26、迭代后的鱼鳞参数式中,
所述的S3中,建立非线性协同系统,完成对深度协同对抗训练模型DCATM的构建的步骤为:S31、关于
式中,
S32、关于主系统的限定定理为,令式中,
S33、在
通过
S34、为便于表示,令式中,
S35、
式中,
S36、通过S31-S35可知,当虚拟控制系统发生变化时,通过限定定理不断缩放以满足平衡条件,而当过度变化发生时,公式(22)的扰动平衡方程又会根据公式(23)产生反向逆变,即S37、
式中,
S38、通过公式(24)和公式(25)可得,每一次若
S39、对价值函数式中,
2.根据权利要求1所述的基于协同训练模型改进IQL的多智能体协同控制方法,其特征在于:所述的S2中,通过鱼鳞预测算法完成对
3.根据权利要求1所述的基于协同训练模型改进IQL的多智能体协同控制方法,其特征在于:所述的S34中,过度变化为,设置一个阈值变化量FD,若变化量≥FD,则代表过度变化。