1.一种基于深度强化学习的多智能体事件触发控制方法,其特征在于:包括以下步骤:
构建智能体系统的动力学模型和一致性控制器;设定智能体系统中各智能体的观测、动作和奖励,并在奖励中引入收敛时间惩罚项;以当前智能体是否与相邻智能体进行通信作为当前智能体的动作;基于不同时刻的观测、动作和奖励构建经验存放区,并使用经验存放区对构建的深度神经网络进行训练;使用训练后的深度神经网络和ε-贪心策略获取最优事件触发策略;根据最优事件触发策略使用一致性控制器完成对各智能体的实时控制;
各智能体的奖励的获取方法如下:
;
其中,和分别为当前智能体i和相邻智能体j的位置状态;Ni为当前智能体i的相邻智能体集合;;为当前智能体i的动作;为收敛时间惩罚项。
2.根据权利要求1所述的一种基于深度强化学习的多智能体事件触发控制方法,其特征在于:若智能体系统在指定的收敛时间之前保持一致,则以智能体系统实现一致的时间作为收敛时间惩罚项;若智能体系统没有在指定的收敛时间之前保持一致,则以预设时间作为收敛时间惩罚项。
3.根据权利要求1所述的一种基于深度强化学习的多智能体事件触发控制方法,其特征在于:各智能体的观测包括当前智能体在当前时刻的位置状态以及当前智能体和相邻智能体在上一次的事件触发时刻的位置状态。
4.根据权利要求1所述的一种基于深度强化学习的多智能体事件触发控制方法,其特征在于:所述获取最优事件触发策略的方法如下:获取随机概率值;若随机概率值小于预设值ε,则随机设定智能体选择的动作;若随机概率值大于或等于预设值ε,则以深度神经网络根据智能体的观测获取的动作,作为智能体选择的动作。
5.根据权利要求1所述的一种基于深度强化学习的多智能体事件触发控制方法,其特征在于:通过时变函数构建一致性控制器;所述的时变函数的表达式为:;
其中,为指定的收敛时间;β为预设参数。
6.根据权利要求1所述的一种基于深度强化学习的多智能体事件触发控制方法,其特征在于:通过构建多智能体系统网络拓扑结构获取与当前智能体进行通信的相邻智能体。
7.一种基于深度强化学习的多智能体事件触发控制系统,包括多个智能体以及用于控制智能体的控制器;其特征在于:该多智能体事件触发控制系统用于执行权利要求1所述的多智能体事件触发控制方法;该多智能体事件触发控制系统还包括观测模块和事件触发控制模块;观测模块用于获取智能体的观测数据;事件触发控制模块用于根据观测数据选择最优事件触发策略。
8.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于:所述存储器存储计算机程序;所述处理器执行如权利要求1-6中任意一项所述的一种基于深度强化学习的多智能体事件触发控制方法。
9.一种可读存储介质,存储有计算机程序;其特征在于:所述计算机程序被处理器执行时用于实现如权利要求1-6中任意一项所述的一种基于深度强化学习的多智能体事件触发控制方法。