1.一种基于深度强化学习的电动出租车充电导航路径规划方法,其特征在于,至少包括:S1.获取电动出租车实时的车辆信息;
S2.以电动出租车在行驶途中的电池损耗成本、充放电损耗成本、电池退化成本、行驶时间成本、等待时间成本及充放电时间成本之和为目标函数,以路径选择约束、到达时间约束、电池电量约束及充放电约束为约束条件,建立电动出租车充电导航路径规划模型;
S3.求解电动出租车充电导航路径规划模型,得到电池损耗成本、充放电损耗成本、电池退化成本、行驶时间成本、等待时间成本及充放电时间成本的最优值;
S4.选定深度强化学习网络模型,将步骤S3求得的最优值、电动出租车实时的车辆信息作为深度强化学习网络模型的输入,训练深度强化学习网络模型,输出最优的电动出租车充电导航路径。
2.根据权利要求1所述的基于深度强化学习的电动出租车充电导航路径规划方法,其特征在于,步骤S1所述的电动出租车实时的车辆信息包括:电动出租车u在t时刻的位置yu,t、电动出租车u在地点j的荷电状态SOCj,t及t时刻到达地点j所属充电站的电动出租车的数量
3.根据权利要求2所述的基于深度强化学习的电动出租车充电导航路径规划方法,其特征在于,步骤S2所述的电动出租车充电导航路径规划模型的目标函数f为:min f=Croad+Cch+Cbattery+πTroad+πTch+πTwait其中,Croad表示电动出租车在行驶途中的电池损耗成本;Cch表示电动出租车在充电站中的充放电损耗成本;Cbattery表示因电动出租车放电带来的电池退化成本;Troad表示电动出租车在道路行驶过程中所需要的时间;Tch表示电动出租车在充电站充放电的时间;Twait表示电动出租车在充电站等待的时间,π表示电动出租车单位耗时时间的价值成本系数;
电动出租车在行驶途中的电池损耗成本Croad的表达式为:其中,α表示电动出租车行驶单位千米的电池能耗;Ψ(t)表示充放电的电价;dij表示从地点i到地点j的距离;xij是表示二进制变量,xij=1表示电动出租车从地点i行驶至地点j,否则,xij=0;Wn表示允许电动出租车经过的地点集合;Mn表示允许电动出租车经过的充电站集合;
电动出租车在充电站中的充放电损耗成本C2h的表达式为:Cch=C1-C2
其中,
其中,C1表示电动出租车在充电站中的充电损耗;C2表示电动出租车在充电站中的放电损耗;Pchar表示电动出租车的充电功率;Pdis表示电动出租车的放电功率;tj表示电动出租车到地点j的时间;Ψ(t)表示充放电的电价;λ(t)、θ(t)均为二进制变量,λ(t)=1时表示电动出租车进行充电过程,否则λ(t)=0,θ(t)=1时表示电动出租车进行放电过程,否则θ(t)=
0;Δt表示决策周期内每段时间的时间长度;
电动出租车放电带米的电池退化成本Cbattery的表达式为:其中,CB表示电池的投资成本,LC表示电池在放电深度DDOD下的循环寿命,DDOD∈[0,0.9],Smax为电动出租车电池的最大容量;
电动出租车在道路行驶过程中所需要的行驶时间Troad的表达式为:其中, 表示电动出租车在道路行驶过程中的平均速度,表达式为:U表示在时间t时,行驶在路段地点i到地点j的电动出租车用户的总数目;u表示第u个电动出租车用户;vu,ij,t表示电动出租车的瞬时速度,表达式为:函数D(yu,t,yu,t-1)表示电动出租车用户u在采样时间内所行驶的距离,Δtsamp表示采样时间,D(yu,t,yu,t-1)与Δtsamp之比表示电动出租车的瞬时速度;行驶时间成本表示为πTroad;
电动出租车在充电站的充放电时间Tch表达式为:
其中, 表示电动出租车在地点j所属充电站的充放电时间,表示电动出租车在地点j所属充电站的充电时间,表达式为:表示电动出租车在地点j所属充电站中总的充电电量,ηchar表示充电效率; 表示电动出租车在地点j所属充电站的放电时间,表达式为:表示在地点j所属充电站中总的放电电量,ηdis表示放电效率;充放电时间成本表示为πTch;
电动出租车在充电站的等待时间Twait表达式为:
其中, Lq,j,t表示t时刻电动出租车在地点j所属充电站队列的长度,表示充电率, 表示t-1时刻到达地点j所属充电站的电动出租车的数量; 表示t时刻到达地点j所属充电站的电动出租车的数量,等待时间成本表示为πTwait。
4.根据权利要求3所述的基于深度强化学习的电动出租车充电导航路径规划方法,其特征在于,步骤S2所述的路径选择约束为:其中,S表示电动出租车的起始位置,D表示电动出租车的目的地。
5.根据权利要求4所述的基于深度强化学习的电动出租车充电导航路径规划方法,其特征在于,步骤S2所述的到达时间约束为:其中,tstart表示电动出租车离开起始位置的时间;ti表示电动出租车到地点i的时间;Bn表示二进制变量xij=1的集合。
6.根据权利要求5所述的基于深度强化学习的电动出租车充电导航路径规划方法,其特征在于,步骤S2所述的电池电量约束为:其中,qj,t表示t时刻在地点j的电动出租车的电池容量;Qstart表示电动出租车的初始电量; 表示电动出租车在地点i所属充电站的充电总容量; 表示电动出租车在地点i所属充电站的放电总容量;
其中,qj,t满足:
其中,SOCj,t表示t时刻,地点j的电动出租车的荷电状态,满足:SOCmin≤SOCj,t≤SOCmax,j∈Mn,SOCmin及SOCmax分别表示电动出租车的最小荷电状态及最大荷电状态;地点j与地点j+1之间的电动出租车的荷电状态满足:SOCj-SOCj+1≥SOCmin。
7.根据权利要求6所述的基于深度强化学习的电动出租车充电导航路径规划方法,其特征在于,步骤S2所述的充放电约束为:λ(t)+θ(t)≤1。
8.根据权利要求7所述的基于深度强化学习的电动出租车充电导航路径规划方法,其特征在于,步骤S2所述的充放电约束还包括:
9.根据权利要求8所述的基于深度强化学习的电动出租车充电导航路径规划方法,其特征在于,步骤S4所述训练深度强化学习网络模型的过程为:S41.选定深度强化学习网络模型N,设置深度强化学习网络模型N的状态为st、动作为at、奖励为rt、当前动作值函数为Q(s,a)、训练的最大迭代次数为n、每次迭代中每辆电动出租车自起始位置至目的地需走的路径条数上限为M;
S42.将求解电动出租车充电导航路径规划模型得到的电池损耗成本、充放电损耗成本、电池退化成本、行驶时间成本、充放电时间成本及等待时间成本的最优值及电动出租车的位置yu,t、电动出租车的荷电状态SOCj,t输入深度强化学习网络模型N,初始化深度强化学习网络模型N的参数θ及深度强化学习网络模型N目标网络的参数 令S42.判断训练是否达到最大迭代次数n,若是,输出最优的电动出租车充电导航路径,否则,执行步骤S43;
S43.判断每辆电动出租车每次迭代中最大的路径数是否达到M,若是,返回步骤S42;否则,随机初始化深度强化学习网络模型N的初始状态为s0,电动出租车自起始位置出发;
S44.判断电动出租车是否自起始位置到达目的地,若是,返回执行步骤S43;否则,采用ε-贪婪策略选取动作at并执行,得到奖励rt,进入状态st+1,将状态st、动作at、奖励rt及状态st+1组成的样本Γ存储进深度强化学习网络模型N的经验回放池;
S45.从深度强化学习网络模型N的经验回放池中获得样本ρ,ρ为(st,at,rt,st+1),ρ∈Γ,并计算目标动作值S46 .根据目标动作值 和当前动作值函数Q(s,a)计算损失函数并通过对损失函数求偏导来获得深度强化学习网络模型N的梯度 β为学习率,利用获得的深度强化学习网络模型N的梯度更新深度强化学习网络模型N的参数θ,执行步骤S47;
S47.每辆电动出租车自起始位置至目的地走的路径条数达到H之后,更新深度强化学习网络模型N目标网络的参数 令S48.返回执行步骤S43。
10.根据权利要求9所述的基于深度强化学习的电动出租车充电导航路径规划方法,其特征在于,深度强化学习网络模型N的状态st为
其中, 分别表示求解电动出租车充
电导航路径规划模型得到的电池损耗成本、充放电损耗成本、电池退化成本、行驶时间成本、充放电时间成本及等待时间成本的最优值;
动作at的表达式为:
at=k
其中,k表示充电站的索引;
奖励rt的表达式为:
其中, 表示电动出租车从地点i到地点j的电池损耗成本;
目标动作值 的表达式为:
其中,Q(s,a)为当前动作值函数,表达式为:
E表示奖励期望,其中s∈st,a∈at,γ为折扣因子。