1.基于全局和局部时空编码器的3D人体姿态估计方法,其特征在于:包括全局空间编码器,所述全局空间编码器用于将每一帧人体所有关节的空间信息融合,通过全连通残差网络对单个姿态的空间信息进行建模,从2D姿态中学习足够的空间信息,并映射到更高的维度;
全局时间编码器,所述全局时间编码器用于弥补全局空间编码器整个序列的时间信息缺失;
所述全局时间编码器为Transformer编码器;
局部时空编码器,所述局部时空编码器用于模拟局部帧中每个关节的时空相关性;
所述局部时空编码器包括用于模拟局部时空相关性的多头时空自注意力机制模块;
所述多头时空自注意力机制模块包括空间注意Attns和时间注意Attnt;
所述局部时空编码器还包括时空注意融合模块,所述时空注意融合模块用于更好地整合空间注意Attns和时间注意Attnt的两个分支信息,从而完成对空间注意Attns和时间注意Attnt的两个分支信息的融合所述局部时空编码器还包括LSTE的网络结构;
LSTE的网络结构的输入Z1通过全局到局部模块获得,可学习的空间位置嵌入矩阵在本地时空编码器的第一层之前使用,其公式如下:通过将局部时空编码器和时间聚合器组合来对局部特征建模,并由层组成;
每个层的时间维度都会发生变化,因此模型在每一层之前都需进行时间位置嵌入,第一层时间位置嵌入为此过程从输入以获得输出的表示如下:其中TA(·)是时间聚集器,是第n层中的局部帧数,表示在第n层之前嵌入的时间位置,上述公式表示如下:时间聚合器,所述时间聚合器用于从整个序列中回归出单个帧的任务,以更好地回归中间帧的三维姿态并聚合局部信息;
全局到局部块,所述全局到局部块用于将全局空间编码器和全局时间编码器直接作用于局部时空编码器和时间聚合器;
MSA-ST有h个注意力头,MSA-ST操作通过连接所有注意力头来实现,如下所示:其中i=1,2,…,h,是一个可学习矩阵,是时空注意力融合模块STAF,分别是Attns(·)和Attnt(·)的第i个头。
2.根据权利要求1所述的基于全局和局部时空编码器的3D人体姿态估计方法,其特征在于:所述全局空间编码器将2D人体姿态序列P∈RT×N×2的每一帧中的所有关节的二维坐标合并为输入并通过全局空间编码器的线性层,将每个帧的空间信息嵌入到高维特征其中dg是全局模块的中间维度,以获得一组潜在特征作为全局时间编码器的输入,每个帧的特征被视为单独的标记。
3.根据权利要求2所述的基于全局和局部时空编码器的3D人体姿态估计方法,其特征在于:所述全局时间编码器为Transformer编码器,由层组成;
可学习的时间位置嵌入在编码器第一层之前使用,公式如下:全局时间编码器应用于输入以获得输出如下:
其中LN(·)是层归一化;
上述公式用函数GTE(·)表示,如下所示:
4.根据权利要求3所述的基于全局和局部时空编码器的3D人体姿态估计方法,其特征在于:所述多头时空自注意力机制模块包括三个映射的可学习矩阵Q、K和V;
为空间注意Attns和时间注意Attnt事项所共有;
Qs,Ks,Vs是通过交换空间和时间维度获得的;
Qt,Kt,Vt是通过将完整序列T划分为具有局部帧数的S个序列获得的,如下所示:空间注意Attns用于模拟单个帧中每个关节之间的空间关系,时间注意Attnt用于模拟局部T帧中相同关节之间的时间关系;
Attns和Attnt的表述如下:
Attns(QK,V)=Reshape(Attention(Qs,Ks,Vs))Attnt(Q,K,V)=Concat(Attention(Qt,Kt,Vt))其中Attention(·)是Transformer的自注意力机制,空间注意Attns和时间注意Attnt的注意力图形状分别为T×N×N和
5.根据权利要求4所述的基于全局和局部时空编码器的3D人体姿态估计方法,其特征在于:所述时空注意融合模块中,在特征通道拼接空间注意Attns和时间注意Attnt,得到的维度是通过平均池化操作和最大池化操作来压缩输入特性的时间维度;
此过程生成两个尺寸为的特征,并将平均特征和最大特征相加;
最后,特征通过全连接网络和sigmoid运算以产生权重对于空间注意Attns和时间注意Attnt的融合定义如下:fcat=Concat(Attns,Attnt)
favg+max=FC(AvgPool(fcat)+MaxPool(fcat))α=Sigmoid(f′avg+max)
αs=α[…:0],αt=α[…:1]
6.根据权利要求5所述的基于全局和局部时空编码器的3D人体姿态估计方法,其特征在于:所述全局到局部块处理全局特征全局到局部块通过投影和拆分实现全局到局部的操作,其定义如下:通过交换2D姿态序列P的时空通道,得到局部模型的输入X∈RN×T×2嵌入;
局部嵌入模块通过线性投影将每个节点的二维特征映射到更高维度dl;
通过结合来指导全局到局部块从全局到局部的投影,定义如下:其中,xi,j表示X的第j帧的第i个节点是局部嵌入的参数矩阵。
7.根据权利要求6所述的基于全局和局部时空编码器的3D人体姿态估计方法,其特征在于:所述时间聚合器通过1D卷积分别聚合每个节点的时间信息,输入的时间序列从T变为S,其中T和S分别表示当前层的完整序列数和当前层被分割后的序列数,表示为函数是当前层中分割序列的局部帧数,与LSTE的网络结构结合使用。
8.根据权利要求7所述的基于全局和局部时空编码器的3D人体姿态估计方法,其特征在于:至少包括以下步骤:进行预训练阶段,对全局空间编码器和全局时间编码器进行优化,使得全局空间编码器和全局时间编码器进行优化后通过重建随机遮掩部分帧和部分2D关节的受损2D姿态来学习2D关节的时空相关性和固有的全局特征,为模型提供了良好的初始化;
在微调阶段,将预训练阶段训练好的权重加载到全局空间编码器和全局时间编码器中,然后对整个模型进行训练,并输出全序列尺度和单目标帧尺度下的三维关节位置;
采用全局时空编码器和局部时空编码器的配合,全局时空编码器和局部时空编码器的输入为时间下采样策略之后的2D姿态序列,输出为全序列和单目标帧尺度下的3D关节位置;
通过采用全局空间编码器获得所有关节的空间信息,通过全局时间编码器获得所有帧的时间信息,从而获得全局特征;
通过局部时空编码器获得局部帧中每个关节的时空信息,并通过时间聚合器聚合得到新的局部特征。
9.根据权利要求8所述的基于全局和局部时空编码器的3D人体姿态估计方法,其特征在于:所述预训练阶段和微调阶段的2D姿态输入都采用了时间下采样策略TDS,从而缓解数据冗余并扩大时间感受野。