1.一种基于增强学习的水下机器人姿态控制方法,其特征在于,包括步骤:(1)构建基于马尔科夫序列的水下机器人动力学模型和回报函数;
(2)引入先验知识,利用支持向量机算法作为函数逼近器,寻找最优策略;
(3)将通过增强学习的控制器应用到水下机器人系统中。
2.根据权利要求1所述的基于增强学习的水下机器人姿态控制方法,其特征在于,所述步骤1中,水下机器人动力学模型为:其中,M是由刚体惯性和附加质量组成的惯性矩阵,C(ζ)是刚体项和附加质量项组成的哥式力和向心力矩阵,D(ζ)是由阻力引起的阻尼矩阵,g(n)是由重力和浮力引起的恢复力与力矩矢量,B是取决于推进器配置的控制矩阵,u是机器人推进器提供的力与力矩矢量;
是机器人在地球坐标系中的姿态,包括三维位置和三个欧拉角;ζ=(u,v,w,p,q,r)T是机器人在载体坐标系中的速度矢量,包括三个方向的线速度和角速度。
3.根据权利要求1所述的基于增强学习的水下机器人姿态控制方法,其特征在于,所述步骤1中,回报函数为:其中,c1,c2是反映姿态误差e和误差变化率 对控制性能影响权重的系数;
策略优化目标函数为:
其中,γ为折扣因子,0<γ<1。
4.根据权利要求1所述的基于增强学习的水下机器人姿态控制方法,其特征在于,所述步骤2具体包括:(2.1)根据先验知识生成初始训练样本集St={(e1,u1),(e2,u2),…(en,un)},t=0;其中,e是增强学习控制器的状态,u是增强学习控制器的输出;
(2.2)根据样本集St利用支持向量机算法得到策略π;
(2.3)利用策略梯度算法调整策略π的参数,得到新的策略π’;
(2.4)利用新的策略π’生成新的训练样本集St+1={(e1,u1),(e2,u2),…(en,un)};
(2.5)令t=t+1,继续步骤2.2;
(2.6)判断第2.2步生成的策略π和在第2.3步生成的策略π,值相等,即得到最优策略π。
5.根据权利要求4所述的基于增强学习的水下机器人姿态控制方法,其特征在于,所述步骤2.2中,策略π为:其中,f为SVM逼近函数,σ2为样本方差。
6.根据权利要求4所述的基于增强学习的水下机器人姿态控制方法,其特征在于,所述步骤2.3具体为,将π(e,u)参数化为π(u|θ,e),利用策略梯度算法调整参数θ,得到新的策略π’,策略梯度算法为:其中,Qπ(e,u)为马尔科夫决策行为值函数:
7.根据权利要求4所述的基于增强学习的水下机器人姿态控制方法,其特征在于,所述步骤2.6的判断条件为|V(π)-V(π’)|<ε,ε为预先指定的某个很小的正数。
8.根据权利要求4所述的基于增强学习的水下机器人姿态控制方法,其特征在于,所述步骤2.6中最优策略π满足目标函数J得到最大值。