1.一种基于Q学习算法的对角递归神经网络控制方法,其特征在于,包括如下步骤:S1:建立三层对角递归神经网络,网络结构由输入层、隐含层和输出层3部分组成,其隐含层的各神经元有自带递归环,其中各层神经元节点数分布为3‑6‑1,各层间初始权重Wij(0)、Wjt(0)在区间[‑0.5,0.5]中随机产生,确定学习率η及权动量项因子ξ0;初始化Q学习的(s,a)所有参数,观察当前状态S(0),并令k=0;
S2:计算基于Q学习算法的对角递归神经网络Q‑DRNN控制误差e(k),Q学习的动作a(k)由动作概率分布从动作集合中选择,观察下一个状态S(k+1);
S3:计算对角递归神经网络输出层的输出ut(k),计算此时Q‑DRNN控制输出u(k),即为无刷直流电机控制系统的控制输入;
S4:获得奖惩信号R(k),计算此状态下Q学习的Q值,计算贪婪动作;
S5:修正Q‑DRNN的关键权重Wij(k)、Wjj(k)和Wjt(k);
k *
S6:更新动作概率分布,令k=k+1,返回S2,直到Q收敛于最优值函数Q为止;
S7:将最终控制输出输入到无刷直流电机控制系统中实现最优控制;
上述步骤S3中对角递归神经网络输出层的输出ut(k)按下式计算:
6 3
ut(k)=Ot(k)=f2[Σj=1Wjt×f1(Σi=1Wij×xi+Wjj×Oj(k‑1)-θj)-θt]其中,xi为Q‑DRNN的输入项,Wij,Wjj,Wjt,θj,θt分别代表输入层和隐含层之间权重、隐含层自递归环权重、隐含层和输出层之间权重、第j隐含层神经元的偏置、第t 输出层神经元的偏置,Ot(k),Oj(k‑1)分别为第t输出层第k次输出和第j隐含层第k‑1次输出,f1(x)、f2(x)是隐藏层和输出层的激活函数;
此时Q‑DRNN控制输出u(k),即为无刷直流电机控制系统的控制输入,由下式计算得到:u(k)=K×ut(k)
其中,K为增益系数;
上述步骤S5中修正Q‑DRNN的关键权重Wij(k)、Wjj(k)和Wjt(k),具体包括:定义Q‑DRNN控制方法的性能指标为Jk,关键权重Wij(k)、Wjj(k)和Wjt(k)采用引入动量项的最速梯度下降法调整:
式中xy可取ij、jj和jt,η为学习速率且η>0,ξ(k)为动量项因子且0≤ξ(k)<1;DRNN中引入动量项实质上相当于阻尼项,减小了学习过程的振荡趋势,改善了收敛性;
在Q学习的过程中,把权值的动量项因子修正项△r作为动作集,Q‑DRNN的输入项xi,i=
1,2,3作为状态集;动量项因子ξ(k)的修正式为ξ(k)=ξ0△r,0≤△r≤1△r>1
△r=exp[e(k)]
当转速误差e(k)越趋近于0时,△r越趋近于1,ξ(k)修正越小;
k
上述步骤S6中更新动作概率分布,令k=k+1,返回S2重新计算以上步骤,直到Q收敛于*
最优值函数Q为止,更新动作概率分布如下:k+1 k k
Ps (ag)=Ps(ag)+β[1-Ps(ag)]式中β值的大小代表动作搜索速度的快慢,且0<β<1,当β的值越接近于1时说明现在的k
动作策略越接近贪婪策略;Ps (a)代表第k次迭代时状态s下选择动作a的概率;若探索和利k *
用的迭代次数达到某一临界值,Q收敛于最优值函数Q。
2.权利要求1所述的一种基于Q学习算法的对角递归神经网络控制方法,其特征在于,所述步骤S1:建立三层对角递归神经网络,还包括:采样得到输入转速Yd(k)和输出转速y(k),计算转速误差e(k)=Yd(k)-y(k),根据转速误差e(k),对e(k),e(k)‑e(k‑1),e(k)‑2e(k‑1)+e(k‑2)进行归一化处理,作为Q‑DRNN的输入项x1,x2,x3。
3.权利要求1所述的一种基于Q学习算法的对角递归神经网络控制方法,其特征在于,所述步骤S4:获得奖惩信号R(k);
引入的奖惩功能与系统的输入有关,由于转速误差e(k)的理想目标为零,优化过程中误差越小,说明学习方向是奖励方向,可以继续朝着这个方向调整;误差越大,说明学习方向就是惩罚方向,应该向相反的方向调整;奖惩函数R(k)可以设计为转速误差e(k)实际值的积分与目标值误差的平方,即
2
R(k)=-[∫|e(k)|dk-0]此时进行Q值的迭代计算:
Q(sk,ak)=γmaxQ(sk+1,a)+R(sk+1,sk)式中γ为折扣因子,s为状态,a为动作;智能体接收外部环境中的输入状态sk,并通过内部推理机制输出相应的动作ak;在ak的作用下,外部环境变成一个新的状态sk+1;同时,它为agent生成即时奖惩信号rk+1;rk+1是对在外部环境状态sk下智能体动作ak的评价;如果行为策略获得正回报,从外部环境中得到奖励,智能体选择行动的倾向会增加,否则倾向会减少;Q(sk+1,a)为sk+1状态下的最大值R(sk+1,sk)为奖惩矩阵返还的数值;
Q学习算法在当前状态下总是选择具有最高Q值的动作,称为贪婪策略π*,如下式:k
π*(k)=argmaxQ(s,a)。
4.权利要求1所述的一种基于Q学习算法的对角递归神经网络控制方法,其特征在于,所设计的基于Q学习算法的对角递归神经网络Q‑DRNN控制方法,通过对角递归神经网络隐含层中独有的递归环对输出变量进行迭代,并对其关键权重进行优化,以加快迭代速度;同时,引入改进的Q学习对对角递归神经网络的权动量项因子进行修正,使对角递归神经网络具有自学习和在线修正的能力,使得系统的抗干扰能力增强、鲁棒性增强,从而使无刷直流电机达到控制效果。