知嘟嘟-专利交易平台_专利购买_专利出售-买专利,上嘟嘟

欢迎来到知嘟嘟！联系电话：13336804447 卖家免费入驻，海量在线求购！卖家免费入驻，海量在线求购！

嘟嘟会员

帮助中心网站地图

查出售查高校查求购查年费

我要发布

首页转移热力图Hot 专利交易委托购买高校专区科技服务专利求购年费查询行业资讯

联系电话：13336804447

知嘟嘟经纪人

一种多重注意力特征融合的说话人识别方法

面议

专利号： 2021109863976

申请人：江苏大学

专利类型：发明专利

专利状态：已下证

专利领域：乐器；声学

更新日期：2026-06-04

缴费截止日期：暂无

价格&联系人

年费信息

委托购买

专利简介

专利详情

委托购买说明

需准备材料

常见问题

摘要:

权利要求书:

1.一种多重注意力特征融合的说话人识别方法，其特征在于：构建深度说话人表征模型，深度说话人表征模型包括特征提取器和说话人分类器，Fbank特征作为深度说话人表征模型的输入，通过特征提取器将Fbank特征提取为说话人表征，在训练阶段，使用说话人分类器将说话人表征映射到说话人标签上，并构造损失函数对深度说话人表征模型进行优化；在测试阶段，采用余弦距离比较说话人表征之间的相似度，根据阈值判断是否为相同的说话人；

所述深度说话人表征模型基于多重注意力特征融合，所述多重注意力特征包括空间注意力机制和通道注意力机制，从全局数据上学习不同分支的特征权重，对特征X1和X2进行相加融合，获得全局特征G，将所述G分别输入到空间注意力机制和通道注意力机制中，获得每个分支的特征权重，最终得到多重注意力特征融合的输出特征。

2.根据权利要求1所述的多重注意力特征融合的说话人识别方法，其特征在于，所述空间注意力机制输入为全局特征G，输出为空间注意力权重和所述空间注意力机制由四层TDNN组成，通过所述TDNN将全局特征映射为不同分支的特征权重，每个分支的每个像素点都学习一个权重，每个分支相同位置的像素点之间使用SoftMax激活操作进行归一化；其中，T代表帧数，F代表频率维度。

3.根据权利要求2所述的多重注意力特征融合的说话人识别方法，其特征在于，对所述全局特征G，通过卷积核为1、空洞率为1的TDNN进行特征学习，先将频率维度F压缩为F`，再将频率维度还原为原始尺寸F，其中F＞F`。

4.根据权利要求3所述的多重注意力特征融合的说话人识别方法，其特征在于，所述通道注意力机制的输入为全局特征G，输出为通道注意力权重和所述通道注意力机制包括池化函数和多层全连接层，池化函数对全局特征G进行压缩，获得中间特征再采用全连接层提取瓶颈特征从瓶颈特征Z`映射出不同分支的通道权重β1和β2；最后采用SoftMax激活函数将不同分支的通道权重规整至(0，1)范围内。

5.根据权利要求4所述的多重注意力特征融合的说话人识别方法，其特征在于，所述通道注意力机制为每个分支的每个通道学习一个权重。

6.根据权利要求1所述的多重注意力特征融合的说话人识别方法，其特征在于，所述空间注意力机制、通道注意力机制以及TDNN组成一个结构块，重复堆叠所述结构块组成深度说话人表征模型，不同的结构块之间采用密集连接。

7.根据权利要求1所述的多重注意力特征融合的说话人识别方法，其特征在于，所述损失函数采用角加边损失函数AAM‑SoftMax。

8.根据权利要求1所述的多重注意力特征融合的说话人识别方法，其特征在于，所述Fbank特征是通过对语音信号进行短时傅里叶变换得到语谱图，语谱图再通过梅尔滤波器获得的。