1.一种基于强化学习的多目标自适应约束无人机路径规划方法,其特征在于,初始化无人机路径种群,包括主种群、辅助种群和输出种群;
确定种群状态,包括主种群中可行个体比例、可行非支配个体与非支配个体的比例、中心点、标准差和基于辅助种群确定的状态标志;
根据种群状态,利用强化学习网络得到动作,并存储至输出种群;强化学习网络按如下公式计算奖励;
R=max(-20,min(20,R'))
式中,R'表示中间变量,IGD表示主种群的反向代际距离,IGD'表示更新后主种群的反向代际距离,表示更新后主种群的可行个体比例向下取整,χ表示更新后辅助种群的个体数量,表示更新后主种群中所有个体的约束违反值之和,表示更新后输出种群中所有个体的约束违反值之和,表示更新后主种群中所有个体在目标空间的标准差,表示更新后输出种群中所有个体在目标空间的标准差,flag表示状态标记;
反向代际距离计算公式为:
式中,y是个体x的目标值,md(y,P1)是个体x在目标空间中离主种群P1中最近个体的欧氏距离,P2表示辅助种群;
判断是否达到终止条件,若否以动作为索引选择自适应约束策略更新种群并继续迭代,若是以输出种群中所有非支配个体作为优化的无人机飞行路径;更新主种群时,以动作作为索引选择约束处理更新方式;所述约束处理类别包括目标值优先、边界值优先以及约束支配原则。
2.根据权利要求1所述的路径规划方法,其特征在于,
中心点为主种群中所有个体目标函数的平均值;
标准差的计算公式为:
其中,表示中心点,y表示所有个体xi对应的目标值,是y和的欧氏距离;
基于辅助种群确定的状态标志,计算公式为:
其中,μj是辅助种群P2更新个体的比率,μthr是预设的参数,J是由每10个连续的代数组成的集合。
3.根据权利要求1所述的路径规划方法,其特征在于,采用如下损失函数对强化学习网络进行训练:式中,R表示奖励,λ表示未来奖励的折扣因子,是把状态St'输入到目标网络Q2后输出最大的动作a'的价值,St'表示更新后种群状态,Q2表示目标网络,Q1表示主网络,Q1(St,a)是把状态St输入到主网络Q1后,动作a对应的动作价值。
4.根据权利要求1所述的路径规划方法,其特征在于,
选择目标值优先时,获取主种群的子代种群并与主种群合并,确定合并种群中每个个体无约束支配其他个体的数量,并计算合并种群中所有个体适应度,以及移除适应度最大的个体;
选择边界值优先时,获取主种群的子代种群并与主种群合并,确定合并种群中每个个体边界约束支配其他个体的数量,并计算合并种群中所有个体适应度,以及移除适应度最大的个体;
边界约束支配定义为:根据约束函数计算个体xi的约束违反值Gi,对于两个个体x1和x2,如果G1和G2同时小于等于边界值ε或G1等于G2,同时x1所有的目标函数值都不差于x2,且至少在一个目标函数上,x1的值严格优于x2,那么x1边界约束支配x2;如果G2大于边界值ε,并且G1小于G2,那么x1边界约束支配x2;
选择约束支配原则时,获取主种群的子代种群并与主种群合并,确定合并种群中每个个体约束支配其他个体的数量,并计算合并种群中所有个体适应度,以及移除适应度最大的个体;
约束支配定义为:根据约束函数计算所个体xi的约束违反值Gi,对于两个个体x1和x2,如果G1等于G2,同时,x1所有的目标函数值都不差于x2,且至少在一个目标函数上,x1的值严格优于x2,那么x1约束支配x2;如果G1小于G2,那么x1约束支配x2。
5.根据权利要求4所述的路径规划方法,其特征在于,边界值ε按如下方式确定:式中,ε0是初始种群所有个体中最大的约束违反值,t表示当前的迭代数,Tmax表示最大迭代次数。
6.根据权利要求4所述的路径规划方法,其特征在于,主种群的子代种群通过如下步骤获得:合并主种群与输出种群得到副主种群,基于副主种群中每个个体分配邻居集合;
对于每个个体xi,从对应的邻居集合中任选两个个体,以无约束支配适应度小的个体作为父代个体,遍历邻居集合,确定最终父代个体xr1和xr2;
对父代个体xr1和xr2进行突变,得到个体ui;
对个体ui中的每个分量u'i以1-CR的概率还原成个体xi中对应的分量x'i,得到CR是变异率。
7.根据权利要求6所述的路径规划方法,其特征在于,按如下公式分配邻居集合,式中,σ表示最大邻居角度,yi是以个体xi的目标值组成目标向量,θ(yi,yj)是向量yi和yi形成的夹角,P4表示副主种群。
8.根据权利要求4或6所述的路径规划方法,其特征在于,个体适应度的计算步骤包括:Fiti=Ri+Di
式中,Fiti表示个体适应度,Ri表示个体原始适应度,Di表示个体密度,P表示合并种群,xj>xi表示xj支配xi,Si表示个体xi按所需约束方式支配合并种群中其他个体的数量,τ表示xi距离第个个体的欧氏距离。