知嘟嘟-专利交易平台_专利购买_专利出售-买专利,上嘟嘟

欢迎来到知嘟嘟！联系电话：13095918853 卖家免费入驻，海量在线求购！卖家免费入驻，海量在线求购！

嘟嘟会员

帮助中心网站地图

查出售查高校查求购查年费

我要发布

首页转移热力图Hot 专利交易委托购买高校专区科技服务专利求购年费查询行业资讯

联系电话：13095918853

知嘟嘟经纪人

服务机器人具有自主学习暂态运动时间的稳定控制方法

￥17900

专利号： 2021107572317

申请人：沈阳工业大学

专利类型：发明专利

专利状态：已下证

专利领域：控制；调节

更新日期：2024-06-24

缴费截止日期：暂无

价格&联系人

年费信息

委托购买

专利简介

专利详情

委托购买说明

需准备材料

常见问题

摘要:

权利要求书:

1.服务机器人具有自主学习暂态运动时间的稳定控制方法，其特征在于，包括以下步骤：

1)利用坐垫机器人的运动学方程并加入质心偏移干扰量，通过坐标变换得到位姿误差方程，建立坐垫机器人的轨迹跟踪误差系统；

2)指定暂态运动时间，使运动位姿和运动速度在指定时间同时实现稳定跟踪；

系统的运动学方程描述如下

其中d表示机器人的质心与几何中心的距离；θ表示机器人运动速度与X轴之间的夹角；

T T

p＝(x y θ) 表示实际位姿，q＝(v ω) 表示实际速度；

T T T

设pr＝(xr yr θr) 表示参考位姿，qr＝(vr ωr) 表示参考速度，pe＝(xe ye θe) 表示位姿误差；

根据坐标变换，坐垫机器人位姿误差方程为：对方程(2)求导，并把(1)代入，得到坐垫机器人轨迹跟踪误差系统：根据轨迹跟踪误差系统，设计速度和角速度控制器分别为其中速度控制器中的变量 χ1＝vr cosθe‑dωr sinθe，且α2≥1,α3≥1为控制器调节参数；tf表示指定暂态运动时间；t0表示初始时刻；

将角速度控制器代入式(5)可得：设计Lyapunov函数：

V1(θe)＝θe (9)

则有

对式(9)求导得：

令有

对式(12)积分，得：

其中α1≥1，常数

由式(13)可知，当t＝tf时，由可得，由此可得，V2＝0,因此在指定暂态时间tf，角度跟踪误差θe达到零；

接下来，将xe视为式(4)的输入，设计xe使ye在指定暂态时间稳定；令设计Lyapunov函数：

V2(ye)＝ye (15)

则有

将式(14)代入式(4)得：

对式(15)求导得:

令有

对式(19)积分，得：

其中

由式(20)可知，当t＝tf时，η≤0，由可得，η＝0；由此可得，V2＝0,因此在指定暂态时间tf,y轴跟踪误差ye达到零；

令v＝v1‑v2，其中v1＝yeω+vr cosθe‑dωr sinθe，代入式(3)得：设变量

代入式(3)‑(4)得到误差系统如下：记由式(6)和v1得：

设计Lyapunov函数：

V3(xe,ye)＝V2(ye)+z (26)由式(26)得：对式(26)求导得：并将式(25)代入得：

取β＝α2+α3，得：

对式(29)积分，得：

ζ≤ln(C3(tf‑t) +1) (30)其中

由式(30)可知，当t＝tf时，ζ≤0，由式知，ζ＝0；由此可得，V3＝0,因此在指定暂态时间tf,x轴跟踪误差xe达到零；

当t≥tf时，由式(7)、式(5)可知，ω＝ωr，再由式(14)可知，xe＝0，进而再通过式(4)可知，即t≥tf时，控制器(6)(7)使跟踪误差系统趋于渐近稳定；

因此，由上述可知，坐垫机器人在运动过程中可实现稳定跟踪控制。

2.根据权利要求1所述服务机器人具有自主学习暂态运动时间的稳定控制方法，其特征在于描述坐垫机器人暂态运动时间的学习状态state1，state2，state3，state4如下：state1:|v|＞vmax and|ω|＞ωmax，t0≤t＜tfstate2:|v|＞vmax and|ω|≤ωmax，t0≤t＜tfstate3:|v|≤vmax and|ω|＞ωmax，t0≤t＜tfstate4:|v|≤vmax and|ω|≤ωmax，t0≤t＜tf其中，vmax表示坐垫机器人允许的最大安全速度,ωmax表示坐垫机器人允许的最大安全角速度；

暂态运动时间的学习动作a1，a2描述如下：a1:tf＝t0+Δt

a2:tf＝t0‑Δt

其中Δt表示每次自主学习暂态运动时间的调整变化量；

设计坐垫机器人自主学习暂态运动时间的奖赏值函数R为:坐垫机器人自主学习暂态运动时间的步骤如下：

1)对坐垫机器人(S,A)进行初始化，其中S为坐垫机器人当前学习状态，A为机器人当前采取的动作；设置机器人更新状态学习速率α，衰减系数γ，学习动作的选择概率ε，其中α∈[0,1]，γ∈[0,1]，ε∈[0,1]；

2)获取坐垫机器人运动位姿误差，并判断机器人在state1，state2，state3，state4中所处的状态，将其记为S，坐垫机器人以概率ε选取a1,a2中的任意一个动作，并记为A，确定当前时刻的状态行为对(S,A)；进一步，根据R获得奖惩值，使坐垫机器人进入下一个状态，记为S'，再利用概率ε选择新的动作A'，获得新的行为对(S',A')，利用(S',A')并根据当前时刻R的奖惩值对(S,A)的价值进行更新，更新过程为：Q(S,A)←Q(S,A)+α[R+γQ(S',A')‑Q(S,A)] (31)其中，Q(S,A)为当前状态行为对(S,A)获得的价值；Q(S',A')为下一时刻状态行为对(S',A')的价值；这样根据式(31)的价值，可以完成一次暂态运动时间的自主学习；

将(S',A')作为当前新的学习状态和学习动作，重复步骤2)，机器人不断进行暂态运动时间自主学习，直到完成学习次数，使指定暂态运动时间达到最优。