1.一种出租车调度方法,其特征在于:包括以下步骤:S1,将出租车调度问题构建为一个马尔可夫决策元组;
其中,该马尔可夫决策元组包括智能体,所述智能体包括负责调度车辆的工人智能体和负责预测未来的出行需求的预测者智能体;
S2,构建网格地图;
其中,每个网格代表一个区域,每个网格内可以拥有多个订单与司机;
S3,所述预测者智能体接收到从环境中观测到的全局订单时空分布,将其划分为基于分钟的历史订单与基于天数的历史订单两种类型;
S4,使用多视图时空卷积注意力模块结合上述两种类型的历史订单分布预测各区域的未来出行需求;
S5,所述工人智能体接收到所述预测者智能体所预测的潜在订单分布,结合推算的潜在车辆分布,基于预分配规则计算区域的供需特征,形成需求指数与区域标记;
S6,相邻的工人智能体通过消息模块来分享所述需求指数与所述区域标记这两个信息,再使用超参数自注意力模块学习出租车调度策略;
S7,验证上述策略,并形成最终模型;
所述马尔可夫决策元组G=(N,S,A,P,R,γ);
其中N是工人智能体的数量,S表示环境中的状态集,A表示行动集,P是状态转移概率,R表示奖励函数,γ表示折扣因子;
p
所述预测者智能体的奖励函数为rt,且:
p
rt=DKL(P(ot+1)||P(pot+1));
其中,P(ot+1)和P(pot+1)分别表示t+1时刻时全城实际订单和预测订单的分布;DKL(P(ot+1)||P(pot+1))表示Kullback‑Leibler距离,它显示了时刻t+1时真实订单和预测出行需求之间的差距;
w
所述工人智能体的奖励函数为rt,且:
其中, 代表网格i中的车辆所获得的直接订单匹配奖励收入;网格i中的剩余车辆没有获得直接奖励,而是根据其周围的潜在订单数量,获得与之成比例的奖励构建所述网格地图,将城市分区成六边形格网世界,每个格网被视为一个代理,具有唯一的格网ID,并拥有多个同质化的空闲车辆;
且所述六边形格网的边缘大小设置为2~3公里;
环境中观察到的历史订单分布数据被用于预测t+1时间步的目标需求;其中时间步t‑n到t中的基于分钟的历史订单分布 被选为预测者智能体输入的一部分,以研究连续n个时间段内旅行需求的变化趋势;
最近n天时间步t+1的基于天的历史订单分布 被选为输入的另一部分,以研究不同天之间旅行需求的变化趋势;
所述多视图时空卷积注意力模块包括时间注意力模块和空间注意力模块,所述时间注意力模块用于从历史数据中学习旅行需求的变化趋势,所述空间注意力模块用于从空间维度挖掘不同网格之间旅行需求的相互影响;
基于分钟的历史订单分布 的潜在需求为
基于天数的历史订单分布 的潜在需求为
所述基于预分配规则计算区域的供需特征,通过匹配潜在订单 和潜在车辆 来计算网格$i$的需求指数dii,其中 表示网格i的本地潜在需求, 表示时刻t+1网格i的本地潜在车辆分布;
所述需求指数dii可以表示为:
其中需求指数dii代表该网格的需求和供应之间的差异,每个网格都根据需求指数dii分配了一个区域标记mi,指示它是热区、冷区或平衡区,根据需求指数dii,我们可以知道网格i属于哪种类型的区域;
因此,区域标记mi可以用数字表示为:
所述消息模块将相邻网格的需求指数和区域标记与当前工人智能体i的需求指数和区域标记相结合,从而计算出特定于工人智能体i的局部需求指数ldi_i和局部区域标记lm_i;同时利用局部状态 构建一个超参数自注意力网络,其为:·
Hyper‑attention(Q,K,V)=softmax((Q×wq)×(K×wk) )×V×wv;
利用所述超参数自注意力网络计算得出工人智能体i的行为‑状态值函数 其为:验证上述策略,并形成最终模型包括以下步骤:S71:计算奖励,根据模型计算的调度策略,调度所有的出租车前往目标区域并匹配订单,计算此次调度决策所带来的收益;
S72:训练模型,存储一天内所有的调度的过程后,采用Huber损失函数学习这些过程并更新智能体网络的参数;
Huber损失函数为:
其中yt=rt+γ×Qπ(st+1,at+1;θ)‑Qπ(st,at;θ)$,θ’为目标网络中的参数;
S73:模型评估与实验验证;训练若干回合后,采用在出租车调度场景中的两个指标ADI和ORR,作为评估算法优缺点的标准;
ADI表示在一个回合中所有已完成订单的收入,可以在基于网格的模拟器中表示为:其中, 表示在时间步t中服务于网格i的订单价值之和;
ORR是一个回合中所有时间步骤中订单响应率的加权平均值,其为:其中, 表示在时间步t中网格i中已服务的订单数量, 表示在时间步$t$中网格i中所有订单数量;
选取最优的模型权重后,在数据集上进行8~15个回合的测试,取所有结果的平均值作为模型的最终结果。