欢迎来到知嘟嘟! 联系电话:13336804447 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13336804447
知嘟嘟经纪人
收藏
专利号: 2024118570075
申请人: 华南农业大学
专利类型:发明专利
专利状态:已下证
专利领域: 控制;调节
更新日期:2026-06-04
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于强化学习的多目标自适应约束无人机路径规划方法,其特征在于,初始化无人机路径种群,包括主种群、辅助种群和输出种群;

确定种群状态,包括主种群中可行个体比例、可行非支配个体与非支配个体的比例、中心点、标准差和基于辅助种群确定的状态标志;

根据种群状态,利用强化学习网络得到动作,并存储至输出种群;强化学习网络按如下公式计算奖励;

R=max(-20,min(20,R'))

式中,R'表示中间变量,IGD表示主种群的反向代际距离,IGD'表示更新后主种群的反向代际距离,表示更新后主种群的可行个体比例向下取整,χ表示更新后辅助种群的个体数量,表示更新后主种群中所有个体的约束违反值之和,表示更新后输出种群中所有个体的约束违反值之和,表示更新后主种群中所有个体在目标空间的标准差,表示更新后输出种群中所有个体在目标空间的标准差,flag表示状态标记;

反向代际距离计算公式为:

式中,y是个体x的目标值,md(y,P1)是个体x在目标空间中离主种群P1中最近个体的欧氏距离,P2表示辅助种群;

判断是否达到终止条件,若否以动作为索引选择自适应约束策略更新种群并继续迭代,若是以输出种群中所有非支配个体作为优化的无人机飞行路径;更新主种群时,以动作作为索引选择约束处理更新方式;所述约束处理类别包括目标值优先、边界值优先以及约束支配原则。

2.根据权利要求1所述的路径规划方法,其特征在于,

中心点为主种群中所有个体目标函数的平均值;

标准差的计算公式为:

其中,表示中心点,y表示所有个体xi对应的目标值,是y和的欧氏距离;

基于辅助种群确定的状态标志,计算公式为:

其中,μj是辅助种群P2更新个体的比率,μthr是预设的参数,J是由每10个连续的代数组成的集合。

3.根据权利要求1所述的路径规划方法,其特征在于,采用如下损失函数对强化学习网络进行训练:式中,R表示奖励,λ表示未来奖励的折扣因子,是把状态St'输入到目标网络Q2后输出最大的动作a'的价值,St'表示更新后种群状态,Q2表示目标网络,Q1表示主网络,Q1(St,a)是把状态St输入到主网络Q1后,动作a对应的动作价值。

4.根据权利要求1所述的路径规划方法,其特征在于,

选择目标值优先时,获取主种群的子代种群并与主种群合并,确定合并种群中每个个体无约束支配其他个体的数量,并计算合并种群中所有个体适应度,以及移除适应度最大的个体;

选择边界值优先时,获取主种群的子代种群并与主种群合并,确定合并种群中每个个体边界约束支配其他个体的数量,并计算合并种群中所有个体适应度,以及移除适应度最大的个体;

边界约束支配定义为:根据约束函数计算个体xi的约束违反值Gi,对于两个个体x1和x2,如果G1和G2同时小于等于边界值ε或G1等于G2,同时x1所有的目标函数值都不差于x2,且至少在一个目标函数上,x1的值严格优于x2,那么x1边界约束支配x2;如果G2大于边界值ε,并且G1小于G2,那么x1边界约束支配x2;

选择约束支配原则时,获取主种群的子代种群并与主种群合并,确定合并种群中每个个体约束支配其他个体的数量,并计算合并种群中所有个体适应度,以及移除适应度最大的个体;

约束支配定义为:根据约束函数计算所个体xi的约束违反值Gi,对于两个个体x1和x2,如果G1等于G2,同时,x1所有的目标函数值都不差于x2,且至少在一个目标函数上,x1的值严格优于x2,那么x1约束支配x2;如果G1小于G2,那么x1约束支配x2。

5.根据权利要求4所述的路径规划方法,其特征在于,边界值ε按如下方式确定:式中,ε0是初始种群所有个体中最大的约束违反值,t表示当前的迭代数,Tmax表示最大迭代次数。

6.根据权利要求4所述的路径规划方法,其特征在于,主种群的子代种群通过如下步骤获得:合并主种群与输出种群得到副主种群,基于副主种群中每个个体分配邻居集合;

对于每个个体xi,从对应的邻居集合中任选两个个体,以无约束支配适应度小的个体作为父代个体,遍历邻居集合,确定最终父代个体xr1和xr2;

对父代个体xr1和xr2进行突变,得到个体ui;

对个体ui中的每个分量u'i以1-CR的概率还原成个体xi中对应的分量x'i,得到CR是变异率。

7.根据权利要求6所述的路径规划方法,其特征在于,按如下公式分配邻居集合,式中,σ表示最大邻居角度,yi是以个体xi的目标值组成目标向量,θ(yi,yj)是向量yi和yi形成的夹角,P4表示副主种群。

8.根据权利要求4或6所述的路径规划方法,其特征在于,个体适应度的计算步骤包括:Fiti=Ri+Di

式中,Fiti表示个体适应度,Ri表示个体原始适应度,Di表示个体密度,P表示合并种群,xj>xi表示xj支配xi,Si表示个体xi按所需约束方式支配合并种群中其他个体的数量,τ表示xi距离第个个体的欧氏距离。