知嘟嘟-专利交易平台_专利购买_专利出售-买专利,上嘟嘟

欢迎来到知嘟嘟！联系电话：13336804447 卖家免费入驻，海量在线求购！卖家免费入驻，海量在线求购！

嘟嘟会员

帮助中心网站地图

查出售查高校查求购查年费

我要发布

首页转移热力图Hot 专利交易委托购买高校专区科技服务专利求购年费查询行业资讯

联系电话：13336804447

知嘟嘟经纪人

一种基于深度强化学习的双足机器人步态规划方法

￥29100

专利号： 2018109791872

申请人：燕山大学

专利类型：发明专利

专利状态：已下证

专利领域：控制；调节

更新日期：2024-04-29

缴费截止日期：暂无

价格&联系人

年费信息

委托购买

专利简介

专利详情

委托购买说明

需准备材料

常见问题

摘要:

权利要求书:

1.一种基于深度强化学习的双足机器人步态规划方法，其特征在于，包括如下步骤：

步骤S1：建立双足机器人模型，描述机器人行走过程；

步骤S2：获取并处理人体步态数据和目标步态数据；

步骤S3：使用降噪自动编码器分别提取双足机器人步态数据与人体步态数据中的隐含特征；

步骤S4：利用深度强化学习对人体步态特征进行学习，进而规划双足机器人步态。

2.根据权利要求1所述的一种基于深度强化学习的双足机器人步态规划方法，其特征在于，步骤S1具体包括以下步骤：步骤S101：建立4连杆有膝圆弧足机器人模型；其中，机器人模型包括2个大腿，2个小腿以及2个圆弧足，腿部由刚性杆通过铰链无摩擦地连接在一起，圆弧足分别固定连接在小腿上，支撑腿和摆动腿具有完全相同的质量和几何参数，且腿的质量均匀分布，机器人模型的膝关节处设置限位机构以模拟人体的膝关节功能，在髋关节设置两台电机，分别对支撑腿和摆动腿施加控制力矩；

步骤S102：以机器人行走过程中前进方向的右侧面为视点对模型步行过程进行分析，选择实时表征机器人状态的无量纲物理量，将所选择的物理量定义为机器人步行状态Θr，机器人步行状态被描述为：其中，取逆时针旋转为正，θr1，为摆动腿小腿到竖直方向的角度和角速度；θr2，为摆动腿大腿到竖直方向的角度和角速度；θr3，为支撑腿小腿到竖直方向的角度和角速度。

3.根据权利要求2所述的一种基于深度强化学习的双足机器人步态规划方法，其特征在于，步骤S2具体包括以下步骤：步骤S201：将人体和机器人从摆动腿起摆到摆动腿与地面发生碰撞的过程定义为一个步态周期；

步骤S202：从CMU人体运动捕获数据库中选取人体正常行走过程数据集，将数据集进行人体划分并解算，得到人体步行过程描述；

步骤S203：以机器人模型为参照，取人体步行纵向的2D平面，定义人体步行状态为Θm，将人体步行过程描述中的所有数据使用Θm进行表示，并将Θm作为行向量，组合得到人体步态数据ΘM；

步骤S204：从人体步态数据ΘM中选取一个步态周期作为机器人的学习对象，提取学习对象数据中的奇数帧组成新的数据集，并定义为目标步态数据ΘS，其中，目标步态数据ΘS中任意行向量为提取得到的Θm；

步骤S205：将机器人在步态周期中的步行状态Θr按照ΘS中的采样频率进行采样，组成机器人步态数据ΘR，其中，机器人步态数据ΘR中任意行向量为采样得到的Θr。

4.根据权利要求3所述的一种基于深度强化学习的双足机器人步态规划方法，其特征在于，步骤S3具体包括：根据Θr、Θm的数据结构，构建两个结构相同的降噪自动编码器，对机器人步态数据ΘR和目标步态数据ΘS进行特征提取；将ΘR、θS的行向量逐一送入降噪自动编码器，并将得到的特征按原有顺序排列，组成机器人步态特征数据HR和目标步态特征数据HS，将HR和HS统一进行归一化处理以便用于深度强化学习，其中每个降噪自动编码器工作流程如下步骤：S301：取ΘR或θS中一行向量Θ送入降噪自动编码器，降噪自动编码器使用二项分布对原始步态数据Θ进行随机擦除，被檫除数据置0，得到含有噪声的步态数据通过编码函数f将映射到隐藏层，得到隐藏层特征h，其中降噪自动编码器的编码函数为：其中，w为输入层和隐藏层间的权重矩阵；sf为编码函数f的激活函数，激活函数取Sigmod函数；

S302：隐藏层特征h通过解码函数g映射到输出层，得到重构输出y；重构输出y保持原始步态数据x的信息，其整体误差通过整体损失函数JDAE来表示，其中降噪自动编码器的解码函数为：其中，为隐藏层与输出层间的权重矩阵，且有 sg为解码函数的激活函数，同样为Sigmod函数；在给定的训练集中降噪自动编码器的整体损失函数：其中θDAE是降噪自动编码器的参数，包括w，p，q；L定义为重构误差，用于刻画y与Θ的接近程度：其中n为输入输出层的维度；

S303：降噪自动编码器训练过程使用梯度下降对JDAE(θ)进行迭代计算以得到最小值，梯度下降对θDAE的更新函数：其中α为学习速率，取值为[0，1]。

5.根据权利要求3所述的一种基于深度强化学习的双足机器人步态规划方法，其特征在于，步骤S4中，选择深度确定性策略梯度算法DDPG作为双足机器人的学习算法，将降噪自动编码器处理的机器人步态特征数据HR作为深度确定性策略梯度算法的输入数据st，目标步态特征数据HS作为rt的计算依据，并由深度确定性策略梯度算法输出电机执行力矩at；机器人在不断的行走过程中采集不同步态的数据，提供给深度确定性策略梯度算法训练，最终使深度确定性策略梯度算法具有控制机器人到达目标步态的能力。

6.根据权利要求5所述的一种基于深度强化学习的双足机器人步态规划方法，其特征在于，其中深度确定性策略梯度算法的策略网络采用5层卷积神经网络，其中分别包括输入层、两层卷积层、全链接层、输出层，其中输入层用于接收st，输出层输出电机需要执行的力矩at。