欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2023104559254
申请人: 三峡大学
专利类型:发明专利
专利状态:已下证
专利领域: 测量;测试
更新日期:2025-05-20
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于注意力和循环PPO实现的导航决策方法,其特征在于,它包括以下步骤:步骤1:智能体与环境交互获取环境图像数据信息;

步骤2:对获取的图像信息进行编码,压缩状态信息,提高训练效率;

步骤3:构建多核卷积神经网络模块对环境信息进行初步特征提取;

步骤4:构建注意力模块与LSTM的结合网络对特征信息进行筛选与压缩,获取重要且关键的信息;

步骤5:将经过模型提取的重要历史信息输入到actor网络获取动作,输入到critic网络评估价值;

步骤6:智能体根据actor网络所得概率矩阵选取动作,与环境交互一定次数后,数据存入经验池;

步骤7:随机抽取batch_size大小的数据进行训练,计算损失函数,进行梯度裁剪,最终通过反向传播进行参数更新。

2.根据权利要求1所述的方法,其特征在于,步骤2具体包括以下子步骤:步骤2‑1)将由步骤1获取到的环境数据中的图像信息进行整体编码处理;

步骤2‑2)根据图像中目标单位的颜色、状态这些信息进行编码设计;

步骤2‑3)整合状态信息,将图像数据信息最终压缩成编码信息,提高训练效率。

3.根据权利要求1所述的方法,其特征在于,在步骤3中,构建两层CNN卷积网层,使用多个卷积核对环境编码信息进行特征处理,采用的CNN卷积网络公式为:t

x=σcnn(wcnn⊙xt+bcnn)

xt表示当前的环境状态特征,wcnn表示过滤器的权重矩阵,bcnn表示偏置向量,σcnn是激活函数。

4.根据权利要求1所述的方法,其特征在于,在步骤4中,具体包括以下子步骤:步骤4‑1)卷积网络模块提取的特征输入到注意力网络模块,其中多头注意力网络能够使模型在多个位置上共同关注不同子空间的信息,最后将各空间所得信息进行拼接,能够更好地对重要信息增加权重,多头注意力网络公式为:Q

Q=XW

K

K=XW

V

V=XW

O

Multi(Q,K,V)=Concat(headi,…,headi)W公式中Q表示查询矩阵,K表示键矩阵,V表示值矩阵,它们由输入的特征向量X分别与对Q K V应的权重矩阵W ,W ,W 相乘所得,Attention(Q,K,V)表示注意力公式,由矩阵Q与矩阵K的转秩相乘的结果除以矩阵Q,K,V维数的平方根,然后乘以矩阵V所得,softmax表示激活函数,Qheadi表示第i个头部的注意力信息,Wi表示第i个头部对应Q的权重矩阵, 表示第i个头部对应K的权重矩阵, 表示第i个头部对应V的权重矩阵,Multi(Q,K,V)表示通过ConcatO连接函数整合各头部重要信息的多头注意力特征信息,W表示计算头部注意力实例线性变换的矩阵;

4‑2)将注意力模块的输出结果输入到LSTM网络;LSTM神经网络通过引入3个门控结构和1个长期记忆单元,来控制信息的流通和损失,其计算公式为:ft=σ(Wfxt+Ufht‑1+bf)

it=σ(Wixt+Uiht‑1+bi)

ot=σ(Woxt+Uoht‑1+bo)

其中ft表示t时刻遗忘门信息,it表示t时刻输入门信息,ot表示t时刻输出门信息,ct表示t时刻记忆细胞状态,前一时间的隐状态ht‑1与序列xt输入到网络中,同时更新隐状态和记忆细胞状态,Wf,Wi,Wo,Uf,Ui,Uo表示对应各门控结构的权重矩阵,bf,bi,bo,bc表示偏置向量,Wc与Uc表示记忆细胞内的权重矩阵,σ代表Sigmoid激活函数,表示哈达玛积,Tanh为双曲正切函数。

5.根据权利要求1所述的方法,其特征在于,

在步骤5中,构建基于Actor‑Critic的网络层,Actor网络使用全连接层对特征信息进行压缩,生成动作概率分布矩阵,Critic网络使用全连接层获取当前状态的评估值;

在步骤6中,智能体依概率选取动作,将选择的动作输入到环境的step函数中,获取当前选择的reward等数据,每交互后一定次数后,将所得的数据存入经验池。

6.根据权利要求1所述的方法,其特征在于,在步骤7中,包括以下子步骤:随机选取batch_size大小的样本数据进行训练,使用重要性采样评估新旧策略的差距,重要性采样公式为:πθold(a|s)表示的在s状态下采取动作a后的旧策略,πθ(a|s)表示在s状态下采取动作a后的新策略,通过梯度裁剪,限制策略参数的更新幅度,其公式如:A=Q(s,a)‑V(s,a)

CLIP

L (θ)=E[min(r(θ)A,clip(r(θ),1‑ε,1+ε)a]其中ε为超参数,A为优势函数,Q(s,a)代表在状态s下采取动作a的累积奖励值,V(s,a)为状态估计值,当优势函数A>0时,说明该动作比平均动作好,需要增大该动作选择概率,当A<0时,则需要减少该动作的选择概率,E表示期望函数,min为取最小值函数,r(θ)为上述公式所求的重要性采样比,clip为截断函数,PPO算法较其他深度强化学习算法更保守,设置了上限为1+ε,下限为1‑ε的区间限制策略参数更新幅度,保证新策略与旧策略相差不大,更新策略参数,策略梯度参数更新公式为:上述所使用的θ均表示策略参数,而策略参数更新的实质就是找到使得截断损失函数CLIPL (θ)期望值最大的策略参数,argmax为求使得函数取最大值的求参函数。

7.一种基于注意力与循环神经网络的ARPPO模型,其特征在于,它的结构为:编码特征提取卷积模块的第一卷积层(1)→编码特征提取卷积模块的第二卷积层(2)→编码特征提取注意力模块的多头注意力层(3)→编码特征提取注意力模块的第一全连接层(4)→编码特征提取注意力模块的第一丢弃层(5)→编码特征提取注意力模块的第二全连接层(6)→编码特征提取注意力模块的第一标准化层(7)→编码特征提取注意力模块的第二标准化层(8)→编码特征提取注意力模块的第二丢弃层(9)→编码特征提取注意力模块的第三丢弃层(10)→编码特征提取循环神经网络模块的LSTM层(11);

编码特征提取循环神经网络模块的LSTM层(11)→策略选择Actor网络模块的第一全连接层(12)→策略选择Actor网络模块的第二全连接层(13);

编码特征提取循环神经网络模块的LSTM层(11)→状态价值评估Critic网络模块的第一全连接层(14)→动作价值评估Critic网络模块的第二全连接层(15)。

8.根据权利要求7所述的模型,其特征在于,该模型在工作时,采用以下步骤:

1)从环境中获取的初始状态信息,使用卷积网络模块对图像编码信息进行初步特征提取,通过第一卷积网络层(1)与第二卷积网络层(2),提取数据的深层多维信息;

2)将提取出的深层多维信息输入到注意力模块中;首先输入至多头注意力网络(3)中捕捉信息的关联性,在多个不同位置上提取特征信息中重要且关键的信息并拼接,然后通过第一全连接层(4)、第一丢弃层(5)进行特征处理并选择丢弃一部分数据防止出现过拟合现象,接着第二全连接层(6)实现上一层全连接层(5)的残差连接,使用第一标准化层(7)、第二标准化层(8)进行层归一化处理,解决层与层之间梯度的稳定性问题,最终再通过第二丢弃层(9)、第三丢弃层(10)丢弃部分数据,防止过拟合;

3)将注意力模块输出的特征信息输入到循环神经网络模块的LSTM层(11),通过引入LSTM网络提取数据的时域特性,使得智能体在探索过程中形成长时记忆;

4)最后将循环神经网络模块的输出特征输入到Actor网络模块与Critic网络模块,Actor网络模块通过第一全连接层(12)进行特征信息综合,接着通过第二全连接层(13)获取智能体所采取的动作及其概率分布,Critic网络模块使用第一全连接层(14)综合特征信息,最后使用第二全连接层(15)对智能体所处当前状态进行价值评分。