欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2022100417599
申请人: 宁波大学
专利类型:发明专利
专利状态:授权未缴费
专利领域: 计算;推算;计数
更新日期:2025-07-09
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种融合集成注意力的2D人体姿态估计方法,其特征在于包括以下步骤:步骤1:从官方网站https://cocodataset.org/#keypoints‑2019获取一个2D人体姿态估计任务的公共数据集MS COCO,该公共数据集MS COCO包含N张自然场景下人的图像以及每张人的图像中人体17个关节点的坐标;每张人的图像均为三通道彩色图像;其中,N=

175000,17个关节点包括左眼、右眼、鼻子、左耳、右耳、左肩、右肩、左手肘、右手肘、左手腕、右手腕、左胯、右胯、左膝盖、右膝盖、左脚踝和右脚踝,各个关节点的坐标基于图像坐标系确定,由横坐标和纵坐标构成,图像坐标系以图像左上角顶点为坐标原点,从坐标原点水平向右方向(即图像左上角顶点和右上角顶点的连线方向)为正横坐标,从坐标原点垂直向下方向(即图像左上角顶点和左下角顶点的连线方向)为正纵坐标;从公共数据集MS COCO中

175000张人的图像及这175000张人的图像中每张人的图像中人体17个关节点的坐标,将MS COCO数据集中这175000张人的图像随机划分为训练集、验证集和测试集三类,其中训练集有150000张人的图像,验证集有5000张人的图像,测试集有20000张人的图像;

步骤2:从训练集和验证集中获取所有人的图像,然后分别制作每张人的图像对应的17张关节点热图,其中每张人的图像对应的第K张关节点热图的制作方法为:设计一张尺寸大小等于人的图像的空白图像,人的图像中每个像素点与空白图像中相同位置处的像素点相对应,然后将人的图像中第K个关节点的坐标定义为中心坐标,将该中心坐标的横坐标记为纵坐标记为 K=1,2,…,17,在与中心坐标处像素点对应的空白图像中的像素点处标注数值1,1表示是第K个关节点的正确位置,接着以中心坐标为圆心,σ=3cm为半径在人的图像上确定一个圆形区域,分别利用二维高斯函数 计算圆形区域中除中心坐标处像素点以外的其余每个像素点处的数值,将得到的每个像素点处的数值K

标注在空白图像中对应的像素点处,其中,e表示自然对数的底,m表示圆形区域内除中心K

坐标处像素点以外的其余某个像素点的横坐标,n 表示圆形区域内除中心坐标处像素点以外的其余某个像素点的纵坐标,圆形区域内除中心坐标的像素点数值外,其余像素点的数值分别大于0且小于1,其数值表示与第K个关节点的正确位置相近,但不是第K个关节点的正确位置,最后,将空白图像中其余未标注的所有像素点处标记数值0,0表示不是第K个关节点的正确位置,空白图像中所有像素点对应标记完成后,即为人的图像对应的第K张关节点热图;

对训练集和验证集中所有人的图像和每张人的图像对应的17张关节点热图分别进行拉伸,使其长均为256厘米,宽均为192厘米,即所有人的图像以及所有关节点热图的尺寸均为256×192,每张人的图像对应的17张关节点热图即为其对应的17个标签;

步骤3:在现有的HRNet基础上增加一个集成注意力模块构建得到融合集成注意力模块的HRNet网络,所述的融合集成注意力模块的HRNet网络包括HRNet和集成注意力模块,所述的HRNet具有第一阶段、第二阶段、第三阶段、第四阶段和解码阶段,所述的第一阶段用于接收大小为256×192×3的图像,并对该图像进行特征提取,生成大小为64×48×256的特征图输出,所述的第二阶段用于接收所述的第一阶段输出的大小为64×48×256的特征图,并对该特征图进行特征提取,生成大小为64×48×32的特征图输出,所述的第三阶段用于接入所述的第二阶段输出的大小为64×48×32的特征图,并生成大小为64×48×32的特征图输出;所述的集成注意力模块用于接入所述的第二阶段输出的大小为64×48×32的特征图以及所述的第三阶段输出的大小为64×48×32的特征图,并分别对接入的两张特征图进行通道特征提取,生成大小为64×48×32的特征图输出,所述的第四阶段用于接入所述的集成注意力模块输出的大小为64×48×32的特征图,并对该特征图进行特征提取,生成大小为64×48×32的特征图输出;所述的解码阶段用于接入所述的第四阶段输出的大小为64×

48×32的特征图,并生成大小为64×48×17的预测关节点热图输出;

所述的集成注意力模块具有第一分支、第二分支和合并分支,所述的第一分支采用一个平均池化层实现,所述的第一分支用于接入所述的第二阶段输出的大小为64×48×32的特征图,并对该特征图进行特征提取,生成大小为1×1×32的特征图输出,所述的第二分支采用一个平均池化层实现,所述的第二分支用于接入所述的第三阶段输出的大小为64×48×32的特征图,并对该特征图进行特征提取,生成大小为1×1×32的特征图输出,所述的合并分支包括concat层、第1个全连接层、ReLu激活层、第2个全连接层、Sigmoid激活层,所述的合并分支的concat层用于接入所述的第一分支输出的大小为1×1×32的特征图以及所述的第二分支输出的大小为1×1×32的特征图,并进行特征提取,生成大小为1×1×64的特征图输出,所述的合并分支的第1个全连接层用于接入所述的合并分支的concat层输出的大小为1×1×64的特征图,并对该特征图进行特征提取,生成大小为1×1×4的特征图输出,所述的合并分支的ReLu激活层用于接入所述的合并分支的第1个全连接层输出的大小为1×1×4的特征图,并对该特征图进行特征提取,生成大小为1×1×4的特征图输出,所述的合并分支的第2个全连接层用于接入所述的ReLu激活层输出的大小为1×1×4的特征图,并对该特征图进行特征提取,生成大小为1×1×32的特征图输出,所述的合并分支的Sigmoid激活层用于接入所述的合并分支的第2个全连接层输出的大小为1×1×32的特征图以及所述的第三阶段输出的大小为64×48×32的特征图,并对大小为1×1×32的特征图进行特征提取后与所述的第三阶段输出的大小为64×48×32的特征图相乘,生成大小为64×48×32的特征图输出。

步骤4:对所述的融合集成注意力模块的HRNet网络进行训练,具体过程为:(1)对所述的融合集成注意力模块的HRNet网络采用he_normal参数初始化方法进行初始化;

(2)将训练集中的人的图像随机分成多个batch,使每个batch中包含batchsize张人的图像,若训练集中的人的图像总数能被batchsize整除,则分成人的图像总数/batchsize个batch,若训练集中的人的图像总数不能被batchsize整除,则将剩余部分舍去,得到|人的图像总数/batchsize︱个batch,其中batchsize=32,︱︱为取整符号;

(3)取其中一个batch,对这个batch中所有人的图像均采用随机旋转进行数据增强处理,其中旋转度数范围为大于0°且小于等于45°;

(4)将所选取batch中所有人的图像作为所述的融合集成注意力模块的HRNet网络的输入,输入到所述的融合集成注意力模块的HRNet网络中进行识别处理,所述的融合集成注意力模块的HRNet网络得到该batch中每张人的图像对应的17张预测关节点热图输出;

(5)对所选取batch中每张人的图像,分别根据对应的17张预测关节点热图和对应的17个标签,计算每张人的图像的人体姿态估计损失值,并计算得到所选取batch中所有人的图像的人体姿态估计损失值平均值作为最终损失值,其中,每张人的图像的人体姿态估计损失值计算如下所示:

j

其中,M=256×192×17,GHeat表示所取batch中一张人的图像对应的第j个关节点热j

图,Heat表示该张人的图像对应的第j个预测关节点热图,其中j=1,2,3,…,17;

(6)根据步骤(5)中计算得到的所取batch中所有人的图像的人体姿态估计损失值,使用学习率为1e‑3的Adam优化器对所述的融合集成注意力模块的HRNet网络的参数进行训练,完成所选取batch对所述的融合集成注意力模块的HRNet网络的训练;

(7)重复步骤(3)‑(6),直至所有的batch都对所述的融合集成注意力模块的HRNet网络进行一次训练,然后将验证集中所有人的图像输入到此时训练后的融合集成注意力模块的HRNet网络中,并采用步骤(5)相同的方法得到验证集中每张人的图像的人体姿态估计损失值,计算并得到验证集中所有人的图像的人体姿态估计损失值平均值;

(8)重复步骤(2)‑(7)共Num次,直至所述的融合集成注意力模块的HRNet网络在验证集上的损失收敛,最终得到训练好的融合集成注意力模块的HRNet网络,其中Num≥210;

步骤5:将需要人体姿态估计的人的图像进行拉伸,使其长为256厘米,宽为192厘米,然后将拉伸后的人的图像输入到训练好的融合集成注意力模块的HRNet网络中,训练好的融合集成注意力模块的HRNet网络生成17张预测关节点热图输出,该17张预测关节点热图即为人体姿态估计结果。