1.一种机器人非提升优化迭代学习控制方法,其特征在于,所述方法包括:第一步、建立机器人阻抗控制系统的动态模型,包括:所述机器人阻抗控制系统的末端覆盖软材料,并与外界环境进行接触作业,则构建机器人阻抗控制系统的实际物理模型作为动态模型,表示为:其中,M表示机器人的质量,Δxr表示机器人末端的运动位移,uf表示输入信号,c表示阻抗系数,fs(·)表示光滑的非线性函数,fs(Δxr)表示运动位移Δxr带来的作用力;
第二步、构建所述机器人阻抗控制系统的离散状态空间方程,包括:将所述机器人末端的运动位移和机器人末端的运动速度定义为状态变量:定义输入变量为输入信号u=uf,输出变量为机器人末端的运动速度 则式(1)所示的系统动态模型描述为:对于式(2)所示的连续非线性系统模型,首先使用Jacobian线性化方法在平衡点Δxr=
0[m]处得到线性化后的系统模型,再对所述线性化后的系统模型进行离散化,选取满足香农采样定理的采样周期Ts,得到所述机器人阻抗控制系统的离散状态空间方程:式中,t表示采样时刻,k表示迭代批次,T表示批次过程的运行周期,且对于每一个重复运行周期t∈[0,T],取N个采样点; 和 分别表示所述机器人阻抗控制系统在第k迭代批次t采样时刻对应维度的输入、输出和状态向量;A、B和C为离散系统的参数矩阵,并满足CB满秩;假设系统每个迭代批次的初始状态保持一致,即xk(0)=
0;
定义期望参考轨迹为yd(t),则跟踪误差ek(t)定义为:ek(t)=yd(t)‑yk(t) (4)第三步、将所述离散系统的非提升优化迭代学习控制过程转化为马尔科夫决策过程,包括:定义五元组 其中:
代表状态空间,定义状态为跟踪误差ek(t+1); 代表动作空间,定义动作为输入变化Δuk+1(t),即:Δuk+1(t)=uk+1(t)‑uk(t) (5)f代表状态转移函数,定义为:
ek+1(t+1)=ek(t+1)‑CAΔxk+1(t)‑CBΔuk+1(t) (6)其中,Δxk+1(t)为状态变化,即:Δxk+1(t)=xk+1(t)‑xk(t) (7)代表收益函数,定义为:
其中,收益函数 由两部分组成,分别为跟踪误差和批次间输入信号变化,分别用对称T T正定权重矩阵Q和R来表示其优先级,即Q=Q>0且R=R>0;所述跟踪误差和批次间输入信号变化的诱导范数定义为:γ代表折扣因子,且存在范围γ∈(0,1],γ的大小决定了未来收益的现在价值;
当前批次的状态值函数定义为:
第四步、设计系统模型参数信息已知情形下的非提升优化迭代学习控制轨迹跟踪算法,包括:上述转化的马尔科夫决策过程是一个沿迭代轴的线性二次调节问题,状态值是二次型的,因此式(10)还表示为:其中,P是一个对称正定矩阵;
同时,基于近似动态规划,根据式(8)和式(9),式(10)还表示为:将式(11)进一步代入式(12)中,得到:根据式(13)对Δuk+1(t)求二次型最优解,得到迭代学习更新律:uk+1(t)=uk(t)+Leek(t+1)+LxΔxk+1(t) (14)其中,Le为误差项学习增益,Lx为批次间状态变化项学习增益,分别为:T T ‑1 T T
Le=(γBCPCB+R) γBCP (15)T T ‑1 T T
Lx=‑(γBCPCB+R) γBCPCA (16)将式(11)代入式(13),得到:式(17)进一步表示为:
其中,
D1=I‑CBLe,D2=‑CA‑CBLx (19)由式(18)得到用于求解式(15)和式(16)中P的贝尔曼方程:T T
P=Q+LeRLe+γ(I‑CBLe) P(I‑CBLe) (20)当给定所述机器人阻抗控制系统的初始输入u0(t),初始状态x0(t),期望参考轨迹yd(t),选定所述对称正定权重矩阵Q和R,一种系统模型参数信息已知情形下的非提升优化迭代学习控制轨迹跟踪算法设计如下:步骤4.1:对离散系统(3)执行uk(t)以获得xk(t+1)和yk(t+1),从而得到ek(t+1)和Δxk+1(t);
步骤4.2:策略评估,根据式(20)得到更新后的P;
步骤4.3:策略迭代,根据式(15)和式(16)得到更新后的Le和Lx;
步骤4.4:根据迭代学习更新律式(14)更新下一批次的输入uk+1(t);
步骤4.5:重复执行步骤4.1,直至采样次数达到N;
步骤4.6:重复执行步骤4.1,直至跟踪误差精度小于设定值,则算法结束;
第五步、设计模型参数信息未知情形下的非提升优化迭代学习控制轨迹跟踪算法,包括:基于Q‑学习算法设计模型参数信息未知情形下的非提升优化迭代学习控制轨迹跟踪算法,Q函数是状态动作值函数,定义为:状态值函数是在策略Δuk+1(t)下的状态ek(t+1)的值函数,故与所述Q函数有着相同的数值,即:V(ek(t+1))=Q(ek(t+1),Δuk+1(t)) (22)针对最优迭代学习控制问题,将所述Q函数写作如下二次形式:其中,
系统参数矩阵被分割定义为:
并且,
Fee=Q+γP,Feu=‑γPCB,Fex=‑γPCA (26)T T T T T T
Fue=‑γBCP,Fuu=R+γBCPCB,Fux=γBCPCA (27)T T T T T T
Fxe=‑γACP,Fxu=γACPCB,Fxx=γACPCA (28)根据式(23)对Δuk+1(t)求二次型最优解,得到迭代学习更新律:q
uk+1(t)=uk(t)+Lτk+1(t+1) (29)其中,
为解决连续的状态空间和动作空间问题,使用实验数据来估计系统参数矩阵 将式(23)参数化为:其中,
回归向量 定义为Zk+1自身的克罗内克积,即:2
其中,zi为 的第i个元素,且p=(n+m+l) ;
根据式(32),式(21)表示为:由于未知系统参数矩阵 为对称矩阵,未知系统参数向量 储存着共p(p+1)/2个独立元素,因此需要L≥p(p+1)/2个数据样本,以组成数据矩阵,进而使用最小二乘法估计系统参数向量;
定义所述数据矩阵为:
则所述未知系统参数向量 的最小二乘法的解计算为:当给定所述机器人阻抗控制系统的初始输入u0(t),初始状态x0(t),期望参考轨迹yd(t),选定对称正定权重矩阵Q和R,一种系统模型参数信息未知情形下的非提升优化迭代学习控制轨迹跟踪算法设计如下:步骤5.1:对离散系统(3)执行uk(t)以采集τk+1(t+1),Zk+1(t+1)和 的数据;
步骤5.2:根据迭代学习更新律式(29)更新下一批次的输入uk+1(t);
步骤5.3:如果满足L≥p(p+1)/2,则执行步骤5.4,否则执行步骤5.6;
步骤5.4:策略评估,根据式(38)与式(41)得到 并将 复原为q
步骤5.5:策略迭代,根据式(31)得到更新后的 和 从而组成L;
步骤5.6:重复执行步骤5.1,直至采样次数达到N;
步骤5.7:重复执行步骤5.1,直至跟踪误差精度小于设定值,则算法结束。