欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2018104560547
申请人: 桂林远望智能通信科技有限公司
专利类型:发明专利
专利状态:已下证
专利领域: 乐器;声学
更新日期:2025-06-05
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于网络融合的声纹识别方法,其特征在于,包括:将待识别声纹音频的语音样本转换为第一语谱图,将与所述待识别声纹音频进行比对的声纹数据库中的语音样本转换为第二语谱图;

将所述第一语谱图和第二语谱图输入时序相关卷积神经网络声纹识别模型,分别提取声纹特征;

在所述时序相关卷积神经网络声纹识别模型中引入CSR模型;

将待识别声纹音频的声纹特征与所述声纹数据库中的声纹特征进行比对,根据引入CSR模型提供的奖惩函数,确定识别结果;

所述时序相关卷积神经网络为:在卷积神经网络中的池化层中融入时序相关的神经网络;

所述时序相关卷积神经网络的架构,包括:输入语谱图,依次经过两个卷积层和两个池化层,在经过第三个池化层时,嵌入时序相关神经网络3;在经过第四个池化层时,嵌入时序相关神经网络2;在经过第五个池化层时,嵌入时序相关神经网络1;将时序相关神经网络1经过第六和第七个卷积层时,进行上采样得到score2;经过时序相关神经网络2后得到一个score_pool4;将score2与score_pool4进行累加并进行上采样得到score4;将经过时序相关神经网络3得到的score_pool3与score4进行累加并上采样得到输出。

2.如权利要求1所述的声纹识别方法,其特征在于,所述时序相关卷积神经网络声纹识别模型的训练方法,包括:

获取多个语音训练样本,将每个所述语音训练样本的音频进行变换得到第三语谱图;

将所述第三语谱图并行投入时序相关卷积神经网络中进行训练,生成时序相关卷积神经网络声纹识别模型。

3.如权利要求1所述的声纹识别方法,其特征在于,根据引入CSR模型提供的奖惩函数,确定识别结果,包括:

在CSR模型中设置奖惩函数,输入所述分别提取特征所对应的特征向量,计算lost方程的值;当所述值大于等于预设的阈值时,则CSR返回一个惩罚值;当所述值小于等于所述阈值时,则返回一个奖励值;根据所述惩罚值和所述奖励值,确定识别结果。

4.如权利要求3所述的声纹识别方法,其特征在于,CSR模型提供的奖惩函数的表达式为:

n

其中,lost是第n个待检测语音在通过所述时序相关卷积神经网络模型训练后得到的归一化特征向量和目标特征向量的误差函数,b是根据所述CSR模型识别率给定的误差阈值;

CSR模型中,确定识别结果的识别函数的数学表达式如下:n

其中, 是判断第n时刻的状态,f(lost)是第n时刻的奖惩函数。

5.一种基于网络融合的声纹识别装置,其特征在于,包括:转换模块,用于将待识别声纹音频的语音样本转换为第一语谱图,将与所述待识别声纹音频进行比对的声纹数据库中的语音样本转换为第二语谱图;

提取模块,用于将所述第一语谱图和第二语谱图输入时序相关卷积神经网络声纹识别模型,分别提取声纹特征;

引入模块,用于在所述时序相关卷积神经网络声纹识别模型中引入CSR模型;

确定模块,用于将待识别声纹音频的声纹特征与所述声纹数据库中的声纹特征进行比对,根据引入CSR模型提供的奖惩函数,确定识别结果;

所述时序相关卷积神经网络为:在卷积神经网络中的池化层中融入时序相关的神经网络;

所述时序相关卷积神经网络的架构,包括:输入语谱图,依次经过两个卷积层和两个池化层,在经过第三个池化层时,嵌入时序相关神经网络3;在经过第四个池化层时,嵌入时序相关神经网络2;在经过第五个池化层时,嵌入时序相关神经网络1;将时序相关神经网络1经过第六和第七个卷积层时,进行上采样得到score2;经过时序相关神经网络2后得到一个score_pool4;将score2与score_pool4进行累加并进行上采样得到score4;将经过时序相关神经网络3得到的score_pool3与score4进行累加并上采样得到输出。

6.如权利要求5所述的声纹识别装置,其特征在于,所述提取模块中时序相关卷积神经网络声纹识别模型的训练方法,包括:获取多个语音训练样本,将每个所述语音训练样本的音频进行变换得到第三语谱图;

将所述第三语谱图并行投入时序相关卷积神经网络中进行训练,生成时序相关卷积神经网络声纹识别模型。

7.如权利要求5所述的声纹识别装置,其特征在于,所述确定模块,具体用于将待识别声纹特征与所述声纹数据库中的声纹特征进行比对,在CSR模型中设置奖惩函数,输入所述分别提取特征所对应的特征向量,计算lost方程的值;当所述值大于等于预设的阈值时,则CSR返回一个惩罚值;当所述值小于等于所述阈值时,则返回一个奖励值;根据所述惩罚值和所述奖励值,确定识别结果。

8.如权利要求7所述的声纹识别装置,其特征在于,所述确定模块中CSR模型提供的奖惩函数的表达式为:

n

其中,lost是第n个待检测语音在通过所述时序相关卷积神经网络模型训练后得到的归一化特征向量和目标特征向量的误差函数,b是根据所述CSR模型识别率给定的误差阈值;

CSR模型中,识别结果的识别函数的数学表达式如下:n

其中, 是判断第n时刻的状态,f(lost)是第n时刻的奖惩函数。