1.一种面向2D图像的人体3D姿态估计方法,其特征在于,具体按照以下步骤实施:步骤1、对2D图像依次进行卷积、归一化、激活操作,输出图像步骤2、对图像 依次进行卷积、归一化、激活操作,输出图像步骤3、将图像 输入子网一进行处理,输出特征图C1、C2;
步骤4、将特征图C1、C2输入子网二进行处理,输出特征图D1、D2、D3;
步骤5、将特征图特征图D1、D2、D3输入子网三进行处理,输出特征图E1、E2、E3;
步骤6、对特征图E1、E2、E3进行处理,得到矩阵P,即为估计的姿态。
2.如权利要求1所述的面向2D图像的人体3D姿态估计方法,其特征在于,所述步骤1具体按照以下步骤实施:步骤1.1、对2D图像同时进行如下操作:
(1)采用3×3的卷积核进行卷积操作,通道数为(1-ain-bin)×64,得到高频特征图A1=[128,128,(1-ain-bin)×64];其中,ain为低频通道数系数;bin为中频通道数系数;
(2)进行1/2倍的下采样,通道数为bin×64,得到中频特征图A2=[64,64,bin×64];
(3)进行1/4倍的下采样,通道数为ain×64,得到低频特征图A3=[32,32,ain×64];
步骤1.2、对步骤1.1输出的每张图像进行如下操作:首先,计算图像像素的平均值μ1;然后,计算图像像素的方差σ1;再对图像像素进行归一化处理,得到 最后,采用线性整流函数对每个像素进行激活,得到
3.如权利要求2所述的面向2D图像的人体3D姿态估计方法,其特征在于,所述步骤2具体按照以下步骤实施:步骤2.1、对图像 中的高频特征图、中频特征图、低频特征图进行特征提取,即同时进行如下操作:
采用3×3的卷积核对高频图像做卷积操作,得到特征图B1_conv;
对高频图像做1/2倍下采样操作,得到特征图B1_down;
对高频图像做1/4倍的下采样操作,得到得到特征图B1_down2;
对中频图像做2倍的上采样操作,得到特征图B2_up;
采用3×3的卷积核对中频图像做卷积操作,得到特征图B2_conv;
对中频图像做1/2倍的下采样操作,得到特征图B2_down;
对低频图像做4倍上采样操作,得到特征图B3_up2;
对低频图像做2倍上采样操作,得到特征图B3_up;
采用3×3的卷积核对低频图像进行卷积操作,得到特征图B3_conv;
步骤2.2、通道合并
对特征图B1_conv、B2_up、B3_up2进行通道数合并,得到高频特征图B1=[64,64,(1-ain-bin)×64];
对特征图B1_down、B2_conv、B3_up进行通道数合并,得到中频特征图B2=[32,32,bin×64];
对特征图B1_down2、B2_down、B3_conv进行通道数合并,得到低频特征图B3=[16,16,ain×64];
步骤2.3、对步骤2.2输出的每张图像进行如下操作:首先,计算图像像素的平均值μ2;然后,计算图像像素的方差σ2;再对图像像素进行归一化处理,得到 最后,采用线性整流函数对每个像素进行激活,得到
4.如权利要求3所述的面向2D图像的人体3D姿态估计方法,其特征在于,所述步骤1.2、步骤2.3中,像素的平均值计算公式如下:式中,xi为每一层输入的图像;m为像素数量;
像素的方差计算公式如下:
式中,xi为每一层输入的图像;m为像素数量;
归一化处理公式如下:
式中,ε是一个极小的数字,为0.0001~0.01;
线性整流激活函数如下:
5.如权利要求2所述的面向2D图像的人体3D姿态估计方法,其特征在于,所述步骤3具体按照以下步骤实施:步骤3.1、将图像 输入子网一中第一个残差块进行处理步骤3.1.1、对图像 中的高频特征图、中频特征图、低频特征图进行特征提取,即同时进行如下操作:
采用3×3的卷积核对高频图像做卷积操作,得到特征图C1_conv;
对高频图像做1/2倍下采样操作,得到特征图C1_down;
对高频图像做1/4倍的下采样操作,得到得到特征图C1_down2;
对中频图像做2倍的上采样操作,得到特征图C2_up;
采用3×3的卷积核对中频图像做卷积操作,得到特征图C2_conv;
对中频图像做1/2倍的下采样操作,得到特征图C2_down;
对低频图像做4倍上采样操作,得到特征图C3_up2;
对低频图像做2倍上采样操作,得到特征图C3_up;
采用3×3的卷积核对低频图像进行卷积操作,得到特征图C3_conv;
步骤3.1.2、通道合并
对特征图C1_conv、C2_up、C3_up2进行通道数合并,得到特征图Cfirst_1_H;
对特征图C1_down、C2_conv、C3_up进行通道数合并,得到特征图Cfirst_1_M;
对特征图C1_down2、C2_down、C3_conv进行通道数合并,得到特征图Cfirst_1_L;
步骤3.1.3、采用步骤1.2的方法对特征图Cfirst_1_H进行相应操作,得到特征图Cfirst_2_H;
采用步骤1.2的方法对特征图Cfirst_1_M进行相应操作,得到特征图Cfirst_2_M;
采用步骤1.2的方法对特征图Cfirst_1_L进行相应操作,得到特征图Cfirst_2_L;
步骤3.1.4、采用步骤3.1.1-步骤3.1.3的方法,对特征图Cfirst_2_H进行相应操作,得到特征图Cfirst_3_H;采用步骤3.1.1-步骤3.1.3的方法,对特征图Cfirst_2_M进行相应操作,得到特征图Cfirst_3_M;采用步骤3.1.1-步骤3.1.3的方法,对特征图Cfirst_2_L进行相应操作,得到特征图Cfirst_3_L;
步骤3.1.5、采用步骤3.1.1-步骤3.1.3的方法,对特征图Cfirst_3_H、Cfirst_3_M、Cfirst_3_L进行相应操作,得到特征图Cfirst_4_H、Cfirst_4_M、Cfirst_4_L;
步骤3.1.6、将图像 中的高频特征图与特征图Cfirst_4_H相加,得到特征图C1_first;将图像 中的中频特征图与特征图Cfirst_4_M相加,得到特征图C2_first;将图像 中的低频特征图与特征图Cfirst_4_L相加,得到特征图C3_first;
步骤3.2、将步骤3.1的输出输入子网一中第二个残差块进行处理采用步骤3.1的方法对特征图C1_first、C2_first、C3_first进行相应操作,得到特征图C1_second、C2_second、C3_second;
步骤3.3、将步骤3.2的输出输入子网一中第三个残差块进行处理采用步骤3.1的方法对特征图C1_second、C2_second、C2_third进行相应操作,得到特征图C1_third、C2_third、C3_third;
步骤3.4、将步骤3.3的输出输入子网一中第四个残差块进行处理采用步骤3.1的方法对特征图C1_third、C2_third、C3_third进行相应操作,得到特征图C1_fourth、C2_fourth、C3_fourth;
步骤3.5、将步骤3.4的输出输入子网一中转换层进行处理采用3×3的卷积核对特征图C1_fourth、C2_fourth、C3_fourth进行卷积操作,得到特征图C1_fifth_1、C2_fifth_1、C3_fifth_1;记为C1,即C1包括特征图C1_fifth_1、C2_fifth_1、C3_fifth_1;
对特征图C1_fourth、C2_fourth、C3_fourth进行1/2倍下采样操作,得到特征图C1_fifth_2、C2_fifth_2、C3_fifth_2;记为C2,即C2包括特征图C1_fifth_2、C2_fifth_2、C3_fifth_2。
6.如权利要求5所述的面向2D图像的人体3D姿态估计方法,其特征在于,所述步骤4具体按照以下步骤实施:步骤4.1、将步骤3的输出输入子网二中第一个残差块进行处理采用步骤3.1的方法对C1进行相应操作,得到D1_first;
采用步骤3.1的方法对C2进行相应操作,得到D2_first;
步骤4.2、将步骤4.1的输出输入子网二中第二个残差块进行处理采用步骤3.1的方法对D1_first进行相应操作,得到D1_second;
采用步骤3.1的方法对D2_first进行相应操作,得到D2_second;
步骤4.3、将步骤4.2的输出输入子网二中第三个残差块进行处理采用步骤3.1的方法对D1_second进行相应操作,得到D1_third;
采用步骤3.1的方法对D2_second进行相应操作,得到D2_third;
步骤4.4、将步骤4.3的输出输入子网二中第三个残差块进行处理采用步骤3.1的方法对D1_third进行相应操作,得到D1_fourth;
采用步骤3.1的方法对D2_third进行相应操作,得到D2_fourth;
步骤4.5、将步骤4.4的输出输入子网二中转换层进行处理采用3×3的卷积核对D1_fourth进行卷积操作,得到D1_fifth_1;对D2_fourth进行2倍上采样操作,得到D2_fifth_1;将D1_fifth_1与D2_fifth_1相加,得到D1;
对D1_fourth进行1/2倍下采样操作,得到D1_fifth_2;采用3×3的卷积核对D2_fourth进行卷积操作,得到D2_fifth_2;将D1_fifth_2与D2_fifth_2相加,得到D2;
对D1_fourth进行1/4倍下采样操作,得到D1_fifth_3;对D2_fourth进行1/2倍下采样操作,得到D2_fifth_3;将D1_fifth_3与D2_fifth_3相加,得到D3。
7.如权利要求6所述的面向2D图像的人体3D姿态估计方法,其特征在于,所述步骤5具体按照以下步骤实施:步骤5.1、将步骤4的输出输入子网三中第一个残差块进行处理采用步骤3.1的方法对D1进行相应操作,得到E1_first;
采用步骤3.1的方法对D2进行相应操作,得到E2_first;
采用步骤3.1的方法对D3进行相应操作,得到E3_first;
步骤5.2、将步骤5.1的输出输入子网三中第二个残差块进行处理采用步骤3.1的方法对E1_first进行相应操作,得到E1_second;
采用步骤3.1的方法对E2_first进行相应操作,得到E2_second;
采用步骤3.1的方法对E3_first进行相应操作,得到E3_second;
步骤5.3、将步骤5.2的输出输入子网三中第三个残差块进行处理采用步骤3.1的方法对E1_second进行相应操作,得到E1_third;
采用步骤3.1的方法对E2_second进行相应操作,得到E2_third;
采用步骤3.1的方法对E3_second进行相应操作,得到E3_third;
步骤5.4、将步骤5.3的输出输入子网三中第四个残差块进行处理采用步骤3.1的方法对E1_third进行相应操作,得到E1_fourth;
采用步骤3.1的方法对E2_third进行相应操作,得到E2_fourth;
采用步骤3.1的方法对E3_third进行相应操作,得到E3_fourth;
步骤5.5、将步骤5.4的输出输入子网三中转换层进行处理采用3×3的卷积核对E1_fourth进行卷积操作,得到E1_fifth_1;对E2_fourth进行2倍上采样操作,得到E2_fifth_1;对E3_fourth进行4倍上采样操作,得到E3_fifth_1;将E1_fifth_1、E2_fifth_1、E3_fifth_1相加,得到E1;
对E1_fourth进行1/2倍下采样操作,得到E1_fifth_2;采用3×3的卷积核对E2_fourth进行卷积操作,得到E2_fifth_2;对E3_fourth进行2倍上采样操作,得到E3_fifth_2;将E1_fifth_2、E2_fifth_2、E3_fifth_2相加,得到E2;
对E1_fourth进行1/4倍下采样操作,得到E1_fifth_3;对E2_fourth进行1/2 倍下采样操作,得到E2_fifth_3;采用3×3的卷积核对E3_fourth进行卷积操作,得到E3_fifth_3;将E1_fifth_3、E2_fifth_3、E3_fifth_3相加,得到E3。
8.如权利要求7所述的面向2D图像的人体3D姿态估计方法,其特征在于,所述步骤6具体过程如下:步骤6.1、采用3×3的卷积核对E1进行卷积操作,得到E1_conv;对E2进行2倍上采样操作,得到E2_up;对E3进行4倍上采样操作,得到E3_up2;将E1_conv、E2_up、E3_up2相加,得到Ppre;
步骤6.2、对Ppre进行矩阵变换,得到特征图Ppre_trans=[64,64,64,Alljoint];对特征图Ppre_trans前三个通道进行softmax操作,得到特征图H;
步骤6.3、提取特征图H中的关节坐标,操作表示如下:式中,W、H、D分别为特征图的宽、高、数量;
步骤6.4、将P_x,P_y,P_z拼接后得到矩阵P,即为估计的姿态。
9.如权利要求8所述的面向2D图像的人体3D姿态估计方法,其特征在于,所述softmax表示为:式中,xi为第i个像素的像素值。