1.一种交通信号控制方法,包括:获取基于路网中各个路口的拓扑结构形成的邻接矩阵;
接收当前所述路网中的多个路口的第一路况信息;
将各个路口的第一路况信息组成状态矩阵;
基于所述状态矩阵和所述邻接矩阵,通过经训练的神经网络模型基于图注意力机制的第一部分,得到对相邻路口的路况信息进行融合后各个路口的状态矩阵,所述状态矩阵中与任一路口对应的向量融合了与所述任一路口相邻的路口的路况信息,其中,所述经训练的神经网络模型利用注意力机制对邻近节点特征加权求和,能够学习到全局几何特征,所述邻近节点特征的权重取决于节点特征,独立于图结构;
分别基于各个路口在所述状态矩阵中对应的向量,通过所述经训练的神经网络模型基于深度强化学习的第二部分,得到对应于各个路口编号的控制动作;
将所述控制动作分别发送至设置在对应路口的交通信号控制机,以便所述交通信号控制机根据所述控制动作控制交通信号。
2.根据权利要求1所述的方法,其中,所述接收当前所述路网中的多个路口的第一路况信息包括:
接收设置在多个路口的检测器采集的当前的第一路况信息,所述第一路况信息包括各个相位的车辆排队长度,所述相位由进入路口的方向和离开路口的方向确定。
3.根据权利要求1所述的方法,还包括:接收执行所述控制动作预定时间之后的第二路况信息并基于所述第二路况信息确定奖励值;
基于所述第二路况信息以及奖励值更新所述神经网络模型的参数。
4.根据权利要求3所述的方法,其中,所述奖励值基于多个路口的排队长度和等待时间确定。
5.根据权利要求3所述的方法,其中,在所述接收执行所述控制动作预定时间之后的第二路况信息并基于所述第二路况信息确定奖励值之后,所述方法还包括:将当前阶段的所述状态矩阵、控制动作、奖励值、路口编号以及基于所述第二路况信息确定的下一阶段的状态矩阵组成结构化的转移数据,所述基于所述第二路况信息以及奖励值更新所述神经网络模型的参数包括:随机选取所述转移数据用于更新所述神经网络模型的参数。
6.一种交通信号控制方法,包括:获取当前路口的第一路况信息;
将所述第一路况信息和预定编号发送到服务端;
接收来自服务端的控制动作,所述控制动作为所述服务端根据权利要求1‑5中任一项所述的交通信号控制方法得到的;
基于所述控制动作控制所述当前路口的交通信号。
7.一种交通信号控制装置,包括:第一获取模块,被配置为获取基于路网中各个路口的拓扑结构形成的邻接矩阵;
第一接收模块,被配置为接收当前所述路网中的多个路口的第一路况信息;
生成模块,被配置为将各个路口的第一路况信息组成状态矩阵,基于所述状态矩阵和所述邻接矩阵,通过经训练的神经网络模型基于图注意力机制的第一部分,得到对相邻路口的路况信息进行融合后各个路口的状态矩阵,所述状态矩阵中与任一路口对应的向量融合了与所述任一路口相邻的路口的路况信息,其中,所述经训练的神经网络模型利用注意力机制对邻近节点特征加权求和,能够学习到全局几何特征,所述邻近节点特征的权重取决于节点特征,独立于图结构,分别基于各个路口在所述状态矩阵中对应的向量,通过所述经训练的神经网络模型基于深度强化学习的第二部分,得到对应于各个路口编号的控制动作;
第一发送模块,被配置为将所述控制动作分别发送至设置在对应路口的交通信号控制机,以便所述交通信号控制机根据所述控制动作控制交通信号。
8.一种交通信号控制装置,包括:第二获取模块,被配置为获取当前路口的第一路况信息;
第二发送模块,被配置为将所述第一路况信息和预定编号发送到服务端;
第二接收模块,被配置为接收来自服务端的控制动作,所述控制动作为所述服务端根据权利要求1‑5中任一项所述的交通信号控制方法得到的;
控制模块,被配置为基于所述控制动作控制所述当前路口的交通信号。
9.一种电子设备,其特征在于,包括存储器和处理器;其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行以实现权利要求1~6任一项所述的方法步骤。
10.一种可读存储介质,其上存储有计算机指令,其特征在于,该计算机指令被处理器执行时实现权利要求1~6任一项所述的方法步骤。