欢迎来到知嘟嘟! 联系电话:13336804447 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13336804447
知嘟嘟经纪人
收藏
专利号: 2021107261873
申请人: 重庆邮电大学
专利类型:发明专利
专利状态:已下证
专利领域: 乐器;声学
更新日期:2026-04-06
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于注意力CNN Bi‑GRU融合视觉信息的语音情感识别方法,其特征在于,包括以下步骤:S1、对原始语音信号进行预处理得到三维对数梅尔谱图;

S2、将步骤S1预处理得到的三维对数梅尔谱图用于预训练基于残差网络的三维注意力卷积神经网络,基于残差网络的三维注意力卷积神经网络从三维对数梅尔谱图中提取深层特征;

S3、通过卷积神经网络和具有注意力机制的门控循环单元分别从裁剪的视频图像中提取面部静态外观特征和几何特征;

S4、采用融合模型将语音特征依次与面部特征进行融合得到混合特征,包括:(1)对于语音和静态外观特征的联合学习,使用深度Bi‑GRU进行视听情感特征的高度非线性融合,得到语音外观特征;

(2)对于面部几何特征,根据加权平均值算法,由融合权重将其与语音外观特征进行融合,得到混合特征;

(3)将整合的混合特征利用核线性判别分析进行特征降维,筛选出最具判别性的特征;

S5、在模型训练的过程中,以交叉熵误差函数作为训练目标函数,通过更新参数最小化交叉熵损失,同时通过Adam算法进行优化,得到最终网络模型,最后由softmax层进行情感分类。

2.根据权利要求1所述一种基于注意力CNN Bi‑GRU融合视觉信息的语音情感识别方法,其特征在于:步骤S1所述预处理包括预加重、分帧、加窗处理,具体包括以下步骤:(1)采用如下式所示高通滤波器提升高频部分:

‑1

H(Z)=1‑μz

其H(Z)为Z域的传递函数,μ表示预加重系数,预加重后的输出结果为x(n);

(2)对预加重后的输出x(n)进行分帧,然后采用汉明窗进行加窗:

y(n)表示分帧后的语音信号,w(n,a)表示汉明窗的窗函数,n=0,1,...,N‑1,N为帧长,加窗后语音信号为:s(n)=y(n)×w(n,a);

(3)端点检测去除无声片段后,由离散傅里叶变换获得语音信号频域上的能量分布,输出是包含N个频带的复数S(k),S(k)表示原始信号中某一频率的幅度和相位,如下式所示:(4)将频谱划分为多个Mel滤波器组,通过M个三角滤波器后得到频率响应为Hm(k),再计算每个滤波器组输出的对数能量p(m):其中,Sa(k)表示第a个频带的幅度和相位;

(5)采用离散余弦变换对每帧数据进行降维,再由差分运算得到对应的一阶差分和二阶差分,将对数频谱及其一阶差分和二阶差分叠加在一起,得到水平长度与信号持续时间相关、垂直长度与滤波器组相关的三维对数梅尔谱图。

3.根据权利要求1所述一种基于注意力CNN Bi‑GRU融合视觉信息的语音情感识别方法,其特征在于:步骤S2所述基于残差网络的三维注意力卷积神经网络引入了卷积块、卷积注意力模块和残差神经网络,具体包括:(1)卷积块由卷积层、组归一化层和线性整流单元组成,用于特征的获取;

(2)注意力模块包括通道和空间方面的两个注意力模块协助三维注意力卷积神经网络在空间和通道方面捕捉精细化特征;

(3)结合使用残差神经网络的跳跃连接技巧,设计了三个残差注意力块来依次学习深层特征。

4.根据权利要求3所述一种基于注意力CNN Bi‑GRU融合视觉信息的语音情感识别方法,其特征在于:所述基于残差网络的三维注意力卷积神经网络的具体处理过程如下:将对数梅尔谱图大小调整为224×224×3作为三维注意力卷积神经网络的输入,第一层卷积核大小为3×2×2,步长为1×2×2;最大池化层大小为1×2×2,步长为1×2×2,保留突出部分的显著特征;接下来,每个残差注意力块有两个卷积块作为第一步,再依次连接通道注意力模块与空间注意力模块,对从卷积块中得到的特征进行了空间和通道方面的关注;最后,应用步长为1×2×2的全局平均池化层,对信道的全局特征进行描述。

5.根据权利要求4所述一种基于注意力CNN Bi‑GRU融合视觉信息的语音情感识别方法,其特征在于:所述三个残差注意力块具体为:在第一个残差注意力块中,两个卷积块都使用卷积核大小为2×1×1,步长为1的卷积层;第二个残差注意力块在第一个卷积块中使用卷积核大小为1×2×2,步长为1×2×2的卷积层,在第二个卷积块中使用卷积核大小为2×1×1,步长为1的卷积层;第三个残差注意力块与第二个残差注意力块使用相同结构的两个卷积块。

6.根据权利要求1所述一种基于注意力CNN Bi‑GRU融合视觉信息的语音情感识别方法,其特征在于:步骤S3具体包括:(1)利用OpenFace2.0工具包裁剪人脸视频,提取得到人脸相关帧和面部关键点;

(2)面部静态外观特征提取网络由EfficientNet对表情相关特征进行关注,学习面部所有帧中的空间特征;

(3)面部几何特征提取网络由具有注意力机制的门控循环单元从关键帧中提取基于面部关键点的时间特征。

7.根据权利要求6所述一种基于注意力CNN Bi‑GRU融合视觉信息的语音情感识别方法,其特征在于:所述具有注意力机制的门控循环单元由七个GRU子网和注意力机制组成,将面部关键点根据不同面部位置划分为七个区域分别输入给相应的七个GRU子网,以获取相对的几何位置依赖关系,然后将七个面部区域单独学习的所有特征进行串联,得到整个面部的整体几何特征,最后通过注意力机制学习权重向量,并自适应地重新调整权重。

8.根据权利要求1所述一种基于注意力CNN Bi‑GRU融合视觉信息的语音情感识别方法,其特征在于:步骤S5中所述交叉熵误差函数定义如下:其中,m表示样本的数量, 表示第i个样本的真实值,yi表示第i个样本的预测输出值,L表示损失值;

所述Adam算法是将Momentum和RMSprop算法结合在一起,最后更新权重后的定义如下:其中, 表示经过偏差修正的Momentum指数加权平均数, 表示经过偏差修正的RMSprop指数加权平均数,α和ε为超参数;

所述softmax函数的公式如下:

n表示分类的个数,一共有n个用数值表示的分类Sk,k∈(0,n],i表示k中的某个分类,gi表示该分类的值,Si表示第i个元素的分类概率。