1.一种基于神经符号系统与强化学习的交通信号灯控制方法,其特征在于,包括:步骤S1,通过摄像头、地磁传感器和GPS实时获取车辆数据,通过气象传感器采集天气信息,通过服务器获得工作日、周末及高峰时段标识,同时通过信号灯控制器获得信号灯信息;
步骤S2,采用卷积神经网络处理摄像头视频流,输出各车道的实时车辆密度、速度分布,并利用传感器数据构建交通流特征向量;
步骤S3,采用神经符号系统将深度学习特征映射为可解释的交通规则,结合交通法规生成约束条件;
步骤S4,构建强化学习的状态和动作空间,基于交通规则和约束条件,设计奖励函数,采用双深度Q网络优化信号灯配时策略;
所述步骤S4中,构建强化学习的状态空间,状态包含:当前交通流特征,即:、、;
为车辆密度交通流特征向量集合,为车辆速度交通流特征向量集合,为排队长度交通流特征向量集合;
历史信号灯配时,即:最近3个周期的绿灯时长,即:;
式中,为第个周期的绿灯时长;
天气信息,其中,天气信息包括但不限于:天气类型、降雨量、可见度、风速、路面状态,即:;
式中,表示天气类型,表示降雨量,表示可见度,表示风速,表示路面的状态;
时间信息包括但不限于:工作日高峰时段和周末非高峰时段,即:;
式中,为1时,表示工作日,为0时,表示周末,为1时,表示高峰时段,为0时,表示非高峰时段;
最终状态向量表示为;
构建强化学习的动作空间,动作 包括但不限于:绿灯时长调整和车道优先级分配,其中,绿灯时长调整:动态调整各方向的绿灯时长,即:;
式中,表示第个方向的绿灯时长调整值;
车道优先级分配:根据实时交通需求动态分配各车道的优先级,影响绿灯时长分配的权重,即:;
其中,表示第个车道的优先级, 时,表示低优先级,时,表示中优先级,时,表示高优先级;
则:
动作空间;
奖励函数设计,即:
设置最小化平均等待时间,,其中,为最小化平均等待时间奖励,为正在等待通过交叉口的车辆数量,为从车辆到达交叉口到其开始通过交叉口的时间间隔;
设置安全惩罚项:
若动作导致冲突方向车辆绿灯同时亮,惩罚 ,其中,为动作冲突奖励;
若排队长度超过阈值,惩罚,为排队长度奖励;
若平均速度低于阈值,惩罚,其中为平均速度奖励,为当前车道的平均速度;
若天气为雨天且绿灯时长小于30秒,惩罚,其中为雨天奖励;
若可见度低于200米且绿灯时长小于30秒,惩罚,其中为低可见度奖励;
即,综合奖励函数:
;
式中,为权重系数,为平滑性奖励;
采用双深度Q网络缓解过估计偏差,引入优先经验回放加速收敛。
2.根据权利要求1所述的一种基于神经符号系统与强化学习的交通信号灯控制方法,其特征在于,所述步骤S1中,车辆数据包括但不限于车流量、车辆速度、排队长度和天气状况。
3.根据权利要求1所述的一种基于神经符号系统与强化学习的交通信号灯控制方法,其特征在于,所述步骤S2中,构建的交通流特征向量包括但不限于:;
;
;
其中,为第个车辆密度交通流特征向量,为第个车辆速度交通流特征向量,为第个排队长度交通流特征向量。
4.根据权利要求3所述的一种基于神经符号系统与强化学习的交通信号灯控制方法,其特征在于,所述步骤S3中,将深度学习特征映射为可解释的交通规则,若针对于车辆密度,即:若东向车道密度超过阈值 ,则触发绿灯延长,规则形式化表示为:;
式中,为车道密度阈值;
若某方向车道的车辆平均速度低于预设阈值,则触发绿灯优先策略以提高通行效率;否则维持当前信号灯配时策略:;
式中,为第个车道的速度阈值;
若某方向车道的排队长度超过预设阈值,则触发绿灯延长或优先策略以缓解拥堵;否则维持当前信号灯配时策略:;
式中,为第个车道的排队长度阈值;
因此需要综合考虑车辆密度、速度和排队长度多个因素,综合规则的形式化表示如下:。
5.根据权利要求1所述的一种基于神经符号系统与强化学习的交通信号灯控制方法,其特征在于,所述步骤S3中,结合交通法规生成的约束条件包括但不限于禁止连续两个红灯周期不放行某方向车辆和东西向通行时南北向必须红灯。
6.根据权利要求1所述的一种基于神经符号系统与强化学习的交通信号灯控制方法,其特征在于,所述步骤S4中,每个信号灯周期结束后,将当前状态 、动作 、奖励 存入经验回放池,定期从池中采样批量数据,通过反向传播更新双深度Q网络参数。