1.一种多重注意力特征融合的说话人识别方法,其特征在于:构建深度说话人表征模型,深度说话人表征模型包括特征提取器和说话人分类器,Fbank特征作为深度说话人表征模型的输入,通过特征提取器将Fbank特征提取为说话人表征,在训练阶段,使用说话人分类器将说话人表征映射到说话人标签上,并构造损失函数对深度说话人表征模型进行优化;在测试阶段,采用余弦距离比较说话人表征之间的相似度,根据阈值判断是否为相同的说话人;
所述深度说话人表征模型基于多重注意力特征融合,所述多重注意力特征包括空间注意力机制和通道注意力机制,从全局数据上学习不同分支的特征权重,对特征X1和X2进行相加融合,获得全局特征G,将所述G分别输入到空间注意力机制和通道注意力机制中,获得每个分支的特征权重,最终得到多重注意力特征融合的输出特征。
2.根据权利要求1所述的多重注意力特征融合的说话人识别方法,其特征在于,所述空间注意力机制输入为全局特征G,输出为空间注意力权重 和 所述空间注意力机制由四层TDNN组成,通过所述TDNN将全局特征映射为不同分支的特征权重,每个分支的每个像素点都学习一个权重,每个分支相同位置的像素点之间使用SoftMax激活操作进行归一化;其中,T代表帧数,F代表频率维度。
3.根据权利要求2所述的多重注意力特征融合的说话人识别方法,其特征在于,对所述全局特征G,通过卷积核为1、空洞率为1的TDNN进行特征学习,先将频率维度F压缩为F`,再将频率维度还原为原始尺寸F,其中F>F`。
4.根据权利要求3所述的多重注意力特征融合的说话人识别方法,其特征在于,所述通道注意力机制的输入为全局特征G,输出为通道注意力权重 和 所述通道注意力机制包括池化函数和多层全连接层,池化函数对全局特征G进行压缩,获得中间特征 再采用全连接层提取瓶颈特征 从瓶颈特征Z`映射出不同分支的通道权重β1和β2;最后采用SoftMax激活函数将不同分支的通道权重规整至(0,1)范围内。
5.根据权利要求4所述的多重注意力特征融合的说话人识别方法,其特征在于,所述通道注意力机制为每个分支的每个通道学习一个权重。
6.根据权利要求1所述的多重注意力特征融合的说话人识别方法,其特征在于,所述空间注意力机制、通道注意力机制以及TDNN组成一个结构块,重复堆叠所述结构块组成深度说话人表征模型,不同的结构块之间采用密集连接。
7.根据权利要求1所述的多重注意力特征融合的说话人识别方法,其特征在于,所述损失函数采用角加边损失函数AAM‑SoftMax。
8.根据权利要求1所述的多重注意力特征融合的说话人识别方法,其特征在于,所述Fbank特征是通过对语音信号进行短时傅里叶变换得到语谱图,语谱图再通过梅尔滤波器获得的。