1.一种基于多信号灯强化学习的交通组织方案优化方法,其特征在于该方法包括以下步骤:S1:构造Actor网络
每个路口的信号灯对应一个智能体,构造与多个智能体相对应的多个Actor网络,所述Actor网络包括状态空间集与行为空间集;
S2:传入观察值
多智能体观察多个路口的交通状态获得观察值,将所述观察值传入所述Actor网络中的状态空间集中,所述观察值包括对应路口的车辆等待时间和车道占有率;
S3:传入行为方案
设定多智能体的行为方案,并将所述行为方案传入所述Actor网络中的行为空间集中;
S4:计算行为偏转概率
在所述Actor网络中,基于所述观察值与行为方案计算行为偏转概率;
S5:选择行为并更新状态
各个智能体基于所述行为偏转概率选择行为,并根据选择的行为更新状态空间集;
S6:Critic网络学习
将所述Actor网络中的行为偏转概率、初始状态空间集和更新后的状态空间集传入Critic网络中进行集中学习训练,将学习后的信息反向传输到所述Actor网络中,并将选择的行为方案输出;
S7:轨迹重构
所述Actor网络进行行为选择后,将被封禁的路段从车辆的轨迹中删除并重新规划路径,并将重新规划的路径输出。
2.根据权利要求1所述的基于多信号灯强化学习的交通组织方案优化方法,其特征在于:在所述Actor网络之后构造Subnet网络,所述Subnet网络将Actor网络传入的高纬度状态信息压缩处理成低纬度状态信息,然后将所述低纬度状态信息反向传入到所述Actor网络中进行行为偏转概率的计算;所述Subnet网络为卷积网络,且每层所采用的滤波器不同,所述Subnet网络与所述Actor网络共享参数;传入所述Subnet网络的矩阵个数为智能体的个数。
3.根据权利要求2所述的基于多信号灯强化学习的交通组织方案优化方法,其特征在于:所述Subnet网络在Actor网络与Critic网络之间,所述Subnet网络将各个Actor网络中初始状态空间集和更新后的状态空间集压缩,并和所述行为偏转概率一起传入所述Critic网络中进行集中学习。
4.根据权利要求1所述的基于多信号灯强化学习的交通组织方案优化方法,其特征在于:将道路的出车道进行道路离散化分为一定数量的路段,每个路段中含有相应的车辆,分别取每个路段中车辆长度与该段路段的长度进行取值比对得到所述车道占有率;所述车辆等待时间为当前道路中所有车辆的等待时间。
5.根据权利要求1所述的基于多信号灯强化学习的交通组织方案优化方法,其特征在于:步骤S3的行为方案为将左转信号灯设置红灯,和/或将右转信号灯设置红灯,和/或将直行信号灯设置红灯,和/或禁直掉头。
6.根据权利要求1所述的基于多信号灯强化学习的交通组织方案优化方法,其特征在于:每个所述Actor网络只针对各自的智能体负责,每个智能体拥有相同的目标并且是同质的,通过参数共享的方式来加快训练速度。
7.根据权利要求1所述的基于多信号灯强化学习的交通组织方案优化方法,其特征在于:在步骤S6中,所述Critic网络根据输入的行为偏转概率、初始状态空间集和更新后的状态空间集计算当前价值v和下一个状态的价值v_;然后计算选择行为后的时间差分学习误差TD_error值, ,r为反馈,S为最初获得的状态,S’为基于选择的行为得到的新的状态,Π为策略, 的定义为在当前策略Π的情况下,通过当前策略执行了相应的动作后得到下一个状态 的价值, 的定义在当前策略Π下当前状态的价值;最后计算时间差分学习误差TD_error,TD_error= r‑GAMMA*v+v_,r为反馈,GAMMA为衰败值。
8.根据权利要求1所述的基于多信号灯强化学习的交通组织方案优化方法,其特征在于:步骤S7中,在不改变起点和终点的情况下,将封禁的路段改变路线,使车辆正常进行行驶,避免出现道路车辆死锁现象。
9.根据权利要求1所述的基于多信号灯强化学习的交通组织方案优化方法,其特征在于:轨迹重构后制定智能体所获取的奖励reward,并针对每回合下对车辆重构轨迹来计算整个路网的车辆总等待时间,其中 ,selfwt为原环境下道路中车辆的总等待时间,wt为通过强化学习每回合学习后车辆进行轨迹重构后的总等待时间;wt初始化为0,通过重构后的轨迹行驶车辆的排队时间与原有的排队时间进行比对来作为该回合的奖励。