1.一种基于自适应矩阵特征融合网络的唇语识别方法,其特征在于,所述方法包括:输入唇语视频,并将所述唇语视频按照时间先后顺序转换为一系列的唇语图像序列,并分别对每一帧唇语图像进行预处理;
采用三维卷积神经网络对唇语图像序列进行处理,提取出唇语图像序列的时空特征信息,捕捉在不同时刻的局部唇部特征和全局面部特征;
采用深度残差网络对每一帧唇语图像的空间特征信息进行处理,提取出每一帧唇语图像在五个层次上的不同尺度的空间特征信息,获得了在不同尺度下的局部唇部特征和全局面部特征;
对每一帧唇语图像的五层空间特征信息采用基于图模型的自适应矩阵的特征融合结构进行处理,将不同尺度的空间特征信息进行融合,融合了低层的全局面部特征和高层的局部唇部特征,从而得到五层唇语特征信息;
使用自注意力机制对五层唇语特征信息的权重进行学习,利用学习到的权重将每一帧唇语图像的五层唇语特征信息加权,并结合唇语图像序列的时间特征信息输入到时间卷积神经网络,输出唇语识别结果。
2.根据权利要求1所述的一种基于自适应矩阵特征融合网络的唇语识别方法,其特征在于,采用基于图模型的自适应矩阵,构建多尺度特征融合网络,分别在所述五个层次上进行多尺度特征融合;包括利用基于图模型的自适应矩阵,选择出不同的特征处理操作从而自动调整特征融合结构,以得到最合理的局部唇部特征和全局面部特征的融合结构;按照对应的特征处理操作进行特征融合,并计算出每一层的唇语特征信息,直至在唇语识别过程中所有网络模型训练完成后,确定该特征融合结构。
3.根据权利要求1或2所述的一种基于自适应矩阵特征融合网络的唇语识别方法,其特征在于,所述基于图模型的自适应矩阵的特征融合结构表示为:Fuse=GCN(A)*((Conv+Maxpool)+Resize+BLI)其中,Fuse表示基于图模型的自适应矩阵的局部唇部特征和全局面部特征融合结构,A为基于图模型的唇语识别特征融合结构自适应矩阵,其包含三个通道,分别为邻接矩阵通道、自学习权重矩阵通道和丢弃矩阵通道,GCN(A)表示对矩阵A进行图卷积操作,*表示为矩阵乘法操作,+表示通道连接操作,Conv表示卷积核提取特征,Maxpool表示最大池化函数,Resize表示上采样或下采样,BLI表示双线性插值法。
4.根据权利要求3所述的一种基于自适应矩阵特征融合网络的唇语识别方法,其特征在于,所述基于图模型的自适应矩阵包括根据特征融合结构的图模型划分出十五个图特征结点和三个图矩阵通道;将三个图矩阵通道划分为邻接矩阵通道、自学习权重矩阵通道和丢弃矩阵通道,将每个图特征结点所对应的特征层按照每个通道的矩阵所表示的连接方式进行连接,其中特征层包含局部唇部特征和全局面部特征;并采用双向金字塔结构初始化所述基于图模型的自适应矩阵,其中,邻接矩阵通道表示每个特征层之间的边连接,自学习权重矩阵通道表示为每个特征层之间的边连接赋予权重,丢弃矩阵通道表示丢弃低于预设阈值的边。
5.根据权利要求4所述的一种基于自适应矩阵特征融合网络的唇语识别方法,其特征在于,邻接矩阵(Ak)通道、自学习权重矩阵(Bk)通道和丢弃矩阵(Dk)通道依次表示为:Ak+1=F(matmul(Ak,Bk)⊙Dk)Bk+1=Bk⊙Dk
其中,Ak+1表示第k+1次迭代的邻接矩阵,Ak表示第k次迭代的邻接矩阵,Bk+1表示第k+1次迭代的自学习权重矩阵,Bk表示第k次迭代的自学习权重矩阵,Dk表示第k次迭代的丢弃矩阵,Bk[i][j]表示Bk第i行第j列的元素,matmul()表示矩阵乘法,⊙表示哈达玛积,m表示预设阈值。
6.根据权利要求5所述的一种基于自适应矩阵特征融合网络的唇语识别方法,其特征在于,对邻接矩阵通道、自学习权重矩阵通道和丢弃矩阵通道采用图卷积神经网络学习各个矩阵通道的连接关系,表示为:
其中,a表示第a个通道数,a=1,2,3,分别代表邻接矩阵通道、自学习权重矩阵通道和a
丢弃矩阵通道,A表示自适应矩阵A的第a个通道,Wa表示第a个通道所对应的1*1卷积的权重向量,维度为Cout×Cin×1×1,Cout表示输出通道的维度,Cin表示输入通道的维度;fin表示为图卷积模型的一系列操作。
7.一种基于自适应矩阵特征融合网络的唇语识别装置,其特征在于,所述装置包括:唇语视频输入模块,用于获取并输入唇语视频;
图像预处理模块,用于将所述唇语视频按照时间先后顺序转换为一系列的唇语图像序列,并分别对每一帧唇语图像进行预处理;
时空特征提取模块,采用三维卷积神经网络对唇语图像序列进行处理,提取出唇语图像序列的时空特征信息,捕捉在不同时刻的局部唇部特征和全局面部特征;
空间特征提取模块,用于采用深度残差网络对每一帧唇语图像的空间特征信息进行处理,提取出每一帧唇语图像在五个层次上的不同尺度的空间特征信息,获得了在不同尺度下的局部唇部特征和全局面部特征;
特征自适应融合模块,用于对每一帧唇语图像的五层空间特征信息采用基于图模型的自适应矩阵的特征融合结构进行处理,将不同尺度的空间特征信息进行融合,融合了低层的全局面部特征和高层的局部唇部特征,从而得到五层唇语特征信息;
唇语图像识别模块,用于使用自注意力机制对五层唇语特征信息的权重进行学习,利用学习到的权重将每一帧唇语图像的五层唇语特征信息加权,并结合唇语图像序列的时间特征信息输入到时间卷积神经网络,输出唇语识别结果。
8.一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1~6任一所述方法的步骤。