欢迎来到知嘟嘟! 联系电话:13336804447 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13336804447
知嘟嘟经纪人
收藏
专利号: 2021107572317
申请人: 沈阳工业大学
专利类型:发明专利
专利状态:已下证
专利领域: 控制;调节
更新日期:2024-04-17
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.服务机器人具有自主学习暂态运动时间的稳定控制方法,其特征在于包括以下步骤:

1)利用坐垫机器人的运动学方程并加入质心偏移干扰量,通过坐标变换得到位姿误差方程,建立坐垫机器人的轨迹跟踪误差系统;

2)指定暂态运动时间,使运动位姿和运动速度在指定时间同时实现稳定跟踪。

系统的运动学方程描述如下其中d表示机器人的质心与几何中心的距离;θ表示机器人运动速度与X轴之间的夹角;

T T

p=(x y θ) 表示实际位姿,q=(v ω) 表示实际速度;

T T T

设pr=(xr yr θr)表示参考位姿,qr=(v ω) 表示参考速度,pe=(xe ye θe)表示位姿误差;

根据坐标变换,坐垫机器人位姿误差方程为:对方程(2)求导,并把(1)代入,得到坐垫机器人轨迹跟踪误差系统:

2.根据权利要求1所述服务机器人具有自主学习暂态运动时间的稳定控制方法,其特征在于根据轨迹跟踪误差系统,设计速度和角速度控制器分别为其中速度控制器中的变量 χ1=vr cosθe‑dωr sinθe, 且α2≥1,α3≥1为控制器调节参数;tf表示指定暂态运动时间;t0表示初始时刻;

将角速度控制器代入式(5)可得:设计Lyapunov函数:2

V1(θe)=θe (9)则有

对式(9)求导得:

令 有

对式(12)积分,得:

其中α1≥1,常数

由式(13)可知,当t=tf时, 由 可得, 由此可得,V2=0,因此在指定暂态时间tf,角度跟踪误差θe达到零;

接下来,将xe视为式(4)的输入,设计xe使ye在指定暂态时间稳定;令设计Lyapunov函数:2

V2(ye)=ye(15)则有

将式(14)代入式(4)得:对式(15)求导得:

令 有

对式(19)积分,得:

其中

由式(20)可知,当t=tf时,η≤0,由 可得,η=0;由此可得,V2=0,因此在指定暂态时间tf,y轴跟踪误差ye达到零;

进一步,令v=v1‑v2,其中v1=yeω+vrcosθe‑dωrsinθe,代入式(3)得:设变量

代入式(3)‑(4)得到误差系统如下:记 由式(6)和v1得:设计Lyapunov函数:2

V3(xe,ye)=V2(ye)+z                                (26)2

由式(26)得: V3≥z , 对式(26)求导得:并将式(25)代入 得:取β=α2+α3, 得:对式(29)积分,得:

β

ζ≤ln(C3(tf‑t) +1)(30)其中

由式(30)可知,当t=tf时,ζ≤0,由式 知,ζ=0;由此可得,V3=0,因此在指定暂态时间tf,x轴跟踪误差xe达到零;

进一步,当t≥tf时,由式(7)、式(5)可知,ω=ωr, 再由式(14)可知,xe=0,进而再通过式(4)可知, 即t≥tf时,控制器(6)(7)使跟踪误差系统趋于渐近稳定;

因此,由上述可知,坐垫机器人在运动过程中可实现稳定跟踪控制。

3.根据权利要求1所述服务机器人具有自主学习暂态运动时间的稳定控制方法,其特征在于描述坐垫机器人暂态运动时间的学习状态state1,state2,state3,state4如下:state1:|v|>vmaxand|ω|>ωmax,t0≤tvmaxand|ω|≤ωmax,t0≤tωmax,t0≤t

暂态运动时间的学习动作a1,a2描述如下:a1:tf=t0+Δt

a2:tf=t0‑Δt

其中Δt表示每次自主学习暂态运动时间的调整变化量;

设计坐垫机器人自主学习暂态运动时间的奖赏值函数R为:坐垫机器人自主学习暂态运动时间的步骤如下:

1)对坐垫机器人(S,A)进行初始化,其中S为坐垫机器人当前学习状态,A为机器人当前采取的动作;设置机器人更新状态学习速率α,衰减系数γ,学习动作的选择概率ε,其中α∈[0,1],γ∈[0,1],ε∈[0,1];

2)获取坐垫机器人运动位姿误差,并判断机器人在state1,state2,state3,state4中所处的状态,将其记为S,坐垫机器人以概率ε选取a1,a2中的任意一个动作,并记为A,确定当前时刻的状态行为对(S,A);进一步,根据R获得奖惩值,使坐垫机器人进入下一个状态,记为S',再利用概率ε选择新的动作A',获得新的行为对(S',A'),利用(S',A')并根据当前时刻R的奖惩值对(S,A)的价值进行更新,更新过程为:Q(S,A)←Q(S,A)+α[R+γQ(S',A')‑Q(S,A)]             (31)其中,Q(S,A)为当前状态行为对(S,A)获得的价值;Q(S',A')为下一时刻状态行为对(S',A')的价值;这样根据式(31)的价值,可以完成一次暂态运动时间的自主学习;

将(S',A')作为当前新的学习状态和学习动作,重复步骤2),机器人不断进行暂态运动时间自主学习,直到完成学习次数,使指定暂态运动时间达到最优。