欢迎来到知嘟嘟! 联系电话:13336804447 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13336804447
知嘟嘟经纪人
收藏
专利号: 2019113606347
申请人: 北京航空航天大学杭州创新研究院
专利类型:发明专利
专利状态:已下证
专利领域: 控制;调节
更新日期:2024-06-18
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种分层强化学习的智能体控制方法,其特征在于包括如下步骤:S01:将智能体导航任务分成追寻目标点和避障两个子任务;利用DDPG算法训练智能体在第一仿真环境下追寻目标点的能力,得到经训练的目标网络;利用DDPG算法训练智能体在第二仿真环境下的避障能力,得到经训练的避障网络;

S02:训练融合网络,融合网络的输入为感知环境状态变化的特征量和目标点的位置数据,输出为融合系数lamda;通过输出的lamda来得到最终动作,然后通过与环境交换得到的奖励reward来逐步修正融合网络;

S03:将目标点信息和环境状态特征信息作为融合网络的输入,对经过预训练的避障网络和目标网络输出进行动作选择,并根据融合系数lamda来执行最终动作。

2.根据权利要求1所述的分层强化学习的智能体控制方法,其特征在于,所述的第一仿真环境由外边界和目标点组成。

3.根据权利要求1所述的分层强化学习的智能体控制方法,其特征在于,所述的目标网络的输入为目标点相对于智能体坐标系的直线距离和倾斜角度,网络输出为智能体的角速度和线速度;

目标网络的奖励函数如下:

式中,rgoal代表到达目标点的奖励;d代表智能体到达目标点的阈值,即当两者距离小于d时表示到达了目标点;p代表当前位置,g代表目标点位置;dr-t(t)为智能体在t时刻相距目标点的距离;ar-t(t)为智能体在t时刻相距目标点的角度。

4.根据权利要求1所述的分层强化学习的智能体控制方法,其特征在于,所述的第二仿真环境由外边界和障碍物组成。

5.根据权利要求1所述的分层强化学习的智能体控制方法,其特征在于,所述避障网络的奖励函数如下所示:式中,robstacle代表碰到障碍物的惩罚;p代表当前位置,o代表障碍物位置,d为判断是否碰到障碍物的阈值,即当两者距离小于d时表示碰到了障碍物;lin_cmd,ang_cmd分别为智能体线速度和角速度;m(t)为t时刻智能体与障碍物最小状态数据。

6.根据权利要求1所述的分层强化学习的智能体控制方法,其特征在于,所述的目标网络或避障网络的训练过程具体为:

1)初始化actor/critic神经网络参数;

2)将online策略网络和值网络的参数分别拷贝给对应的target网络参数;

3)初始化记忆回放库;

4)在每一个回合中,actor根据行动策略选择动作,执行后,返回奖励r和下一个状态St+1,将状态转换四元数储存至记忆回放库中,作为online策略网络和值网络的数据集;

5)记忆回放库储存一定数量后,从中随机采样N个样本进行训练;

6)先后计算online值网络和策略网络的梯度并进行更新;

7)迭代至一定回合数后,对target值网络和目标策略网络进行soft-update。