1.一种目标车辆的行驶方法,其特征在于,包括:
在目标车辆启动召唤功能的情况下,获取所述目标车辆从当前位置自动驾驶到召唤点的第一路径;
根据预设调整条件对所述第一路径进行调整,得到第二路径;
获取所述第二路径对应的经验行驶参数和第一环境信息,并将所述经验行驶参数和第一环境信息输入到已训练的神经网络模型中,得到所述目标车辆在所述第二路径的多个路径点上分别对应的目标行驶参数,其中,所述目标行驶参数包括以下至少之一:所述目标车辆的方向盘转角,所述目标车辆的行驶速度;
根据所述多个路径点上分别对应的目标行驶参数和所述第二路径控制所述目标车辆从当前位置自动驾驶到所述召唤点。
2.根据权利要求1所述的目标车辆的行驶方法,其特征在于,根据预设调整条件对所述第一路径进行调整,包括:确定所述第一路径的初始行驶时间;
确定所述目标车辆在每一个所述路径点的目标行驶参数,其中,所述目标行驶参数至少包括:所述目标车辆的车辆转向角,所述目标车辆的车辆加速度;使用所述预设调整条件对所述第一路径的初始行驶时间和所述目标行驶参数进行调整,其中,所述预设调整条件至少包括:确定所述第一路径的最小行驶时间,所述目标车辆在每一个路径点的最小转向角度和所述目标车辆在每一个路径点的最小加速度。
3.根据权利要求1所述的目标车辆的行驶方法,其特征在于,将所述经验行驶参数和第一环境信息输入到已训练的神经网络模型中,得到所述目标车辆在所述第二路径的多个路径点上分别对应的目标行驶参数,包括:获取所述神经网络模型中已经构建好的策略网络和评价网络;
将所述第二路径对应的经验行驶参数和所述第一环境信息输入所述策略网络,并将所述策略网络输出的策略行驶参数和预设噪声参数进行叠加,得到叠加结果,其中,所述预设噪声参数用于调整所述策略网络的输出值的输出范围;
根据所述叠加结果确定出所述目标行驶参数。
4.根据权利要求3所述的目标车辆的行驶方法,其特征在于,在根据所述叠加结果确定出所述目标行驶参数之后,所述方法还包括:根据所述目标车辆的第一环境信息,所述目标行驶参数和所述目标行驶参数对应的奖赏信息对所述评价网络和策略网络进行更新;
根据更新后的评价网络和策略网络继续训练所述神经网络模型。
5.根据权利要求4所述的目标车辆的行驶方法,其特征在于,对所述评价网络进行更新的过程,包括:Q
使用所述评价网络对动作值函数Q(s,a|θ)进行估计,得到第一估计结果,其中,所述sQ表示所述目标车辆的第一环境信息,所述θ为所述评价网络的网络参数;
Q
使用所述评价网络对应的目标评价网络对所述动作值函数Q(s,a|θ)进行估计,得到第二估计结果;
在确定所述第一估计结果和所述第二估计结果之间的差值大于第一预设值的情况下,Q对所述θ进行更新;
其中,所述第一估计结果和所述第二估计结果之间的差值L表示为:Q 2
L=(1/N)∑i(yi‑Q((si,ai|θ) ,所述yi表示所述第一估计结果,所述N表示所述第二路径对应的数量。
6.根据权利要求5所述的目标车辆的行驶方法,其特征在于,所述方法还包括:在确定μ所述评价网络更新之后,使用第一公式对所述策略网络的网络参数θ进行更新;
所述第一公式表示如下:
其中, α表示所述策略网络的学习率, 为策略梯度,μ μ
表示回报函数J(θ)关于θ的梯度。
7.根据权利要求1所述的目标车辆的行驶方法,其特征在于,将所述经验行驶参数和第一环境信息输入到已训练的神经网络模型中,得到所述目标车辆在所述第二路径的多个路径点上分别对应的目标行驶参数,包括:在所述第一环境信息用于表示所述目标车辆的感知范围内的环境信息的情况下,将所述经验行驶参数和第一环境信息输入到已训练的神经网络模型中,得到所述目标车辆在第三路径的多个路径点上分别对应的目标行驶参数,其中,所述第三路径表示所述目标车辆的感知范围内的路径;其中,所述目标车辆的当前位置至目标对象的召唤点之间的距离超出所述目标车辆的感知范围。
8.一种目标车辆的行驶装置,其特征在于,包括:
第一得到模块,用于在目标车辆启动召唤功能的情况下,获取所述目标车辆从当前位置自动驾驶到召唤点的第一路径;
第二得到模块,用于根据预设调整条件对所述第一路径进行调整,得到第二路径;
获取模块,用于获取所述第二路径对应的经验行驶参数和第一环境信息,并将所述经验行驶参数和第一环境信息输入到已训练的神经网络模型中,得到所述目标车辆在所述第二路径的多个路径点上分别对应的目标行驶参数,其中,所述目标行驶参数包括以下至少之一:所述目标车辆的方向盘转角,所述目标车辆的行驶速度;
控制模块,用于根据所述多个路径点上分别对应的目标行驶参数和所述第二路径控制所述目标车辆从当前位置自动驾驶到所述召唤点。
9.一种计算机可读的存储介质,其特征在于,所述计算机可读的存储介质包括存储的程序,其中,所述程序运行时执行上述权利要求1至7任一项中所述的方法。
10.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行所述权利要求1至7任一项中所述的方法。