1.一种基于混合分层强化学习的网约车调度方法,其特征在于,包括以下步骤:
将网约车调度过程构建为马尔科夫过程;
基于所述网约车调度过程提取时间信息、司机分布和订单分布进行仿真处理,构建司机与订单的时空分布矩阵;
构建混合分层模型,所述混合分层模型学习高层决策和低层决策,为司机匹配订单获得调度结果;
将所述调度结果进行存储和学习,计算出所述高层决策和低层决策的奖励,更新模型;
计算出所述高层决策和低层决策的奖励,更新模型包括:采用off‑policy训练所述调度结果,计算所述高层决策和低层决策的奖励,获得组合决策值函数,计算每个时间片内所采用的每种调度所获得的收益,分配给两层决策,根据一天内所有的状态,奖励以及组合决策值更新模型;采用off‑policy的方式进行训练,在进行完一天的所有调度后,首先计算两个Q值的组合值,其中 计算过程如下:其中 代表第n个智能体组的Q值, 的计算过程也同上,每个智能体集的决策价值函数只需要自己的局部观测,因此整个系统在执行时是一个分布式的,通过局部值函数,选出累积期望奖励最大的动作执行;通过混合模块的输入2控制超参数权值都大于0,使组合决策值函数与每个局部值函数的单调性相同,使局部值函数取最大动作也就是使组合决策值函数最大,满足公式:然后计算出每个时间片内所采用的每种调度所获得的收益,分配给两层决策,最后将一天内所有的状态,奖励以及组合决策值存入经验池训练模型;
所述混合分层模型进行测试,获得订单响应率和订单收益,完成网约车调度。
2.如权利要求1所述的基于混合分层强化学习的网约车调度方法,其特征在于,所述网约车调度过程由一个元组G=(N,S,R,A,P,γ)定义,其中,N,S,R,A,P,γ分别是智能体数、状态集、奖励函数、决策空间、转移概率函数、和折扣因子。
3.如权利要求2所述的基于混合分层强化学习的网约车调度方法,其特征在于,所述网约车调度过程具体定义包括:N的值相当于网格数量,将每个司机为一个智能体,同一时刻同一空间下的所有智能体为一个智能体集,同一个智能体集内的所有智能体有相同的决策;S包括为一天内所有时刻的全局状态与局部状态以及历史订单的分布,全局状态为某时刻的所有司机、订单的分布,局部状态为某时刻每个网格自己及相邻网格的司机、订单分布;R为做出每层决策后所服务的订单收益;A为两层决策,高层决策是管控司机是否参与定点热门区域的服务,低层决策是那些不参与热点服务订单的司机的调度;P为概率转移函数。
4.如权利要求3所述的基于混合分层强化学习的网约车调度方法,其特征在于,做出每层决策后所服务的订单收益,获得奖励,计算如下,其中,i表示第i个智能体集,R1,R2分别高层决策奖励与底层决策奖励,为第i个智能体集的高层决策, 为第i个智能体集的低层决策。
5.如权利要求1所述的基于混合分层强化学习的网约车调度方法,其特征在于,选取仿真区域,模拟生成所述仿真区域的蜂窝地图,对订单数据进行采样,提取时间信息、司机分布和订单分布并根据时间段映射到网格中,获取订单坐标与司机坐标;首先将订单坐标空间分布与司机坐标空间分布构建成两个一维矩阵O,D,用O‑D就可以得到当前可用车辆的空间分布矩阵D′,连接矩阵O与D′,再在每个维度补充时间信息,就得到了司机与订单时空分布矩阵。
6.如权利要求2所述的基于混合分层强化学习的网约车调度方法,其特征在于,学习高层决策的全局状态包括HOt+1,Dt,Ot,其中Ot与Dt表示t时刻下的订单与司机的空间分布,HOt+1表示过去20天内t+1时刻下的订单的空间分布,使用多头注意力机制提取三者之间的关系,公式为:MultiHead表示输出,h表示注意力的层数,w表示参数矩阵, 表比例因子,得到的结果经过前向传播、残差连接与归一化等操作后得到Q1,Q1将对每个智能体集做出高级决策,决定该智能体集是否参与附近热门地区的车辆调度。
7.如权利要求6所述的基于混合分层强化学习的网约车调度方法,其特征在于,学习低层决策的状态包括全局状态与局部状态两部分,全局状态为Ot,局部状态为智能体集所能观测到局部信息。