知嘟嘟-专利交易平台_专利购买_专利出售-买专利,上嘟嘟

欢迎来到知嘟嘟！联系电话：13336804447 卖家免费入驻，海量在线求购！卖家免费入驻，海量在线求购！

嘟嘟会员

帮助中心网站地图

查出售查高校查求购查年费

我要发布

首页转移热力图Hot 专利交易委托购买高校专区科技服务专利求购年费查询行业资讯

联系电话：13336804447

知嘟嘟经纪人

基于基音周期混合特征参数的声纹识别方法

￥19000

专利号： 2015102683905

申请人：重庆大学

专利类型：发明专利

专利状态：已下证

专利领域：乐器；声学

更新日期：2024-02-23

缴费截止日期：暂无

价格&联系人

年费信息

委托购买

专利简介

专利详情

委托购买说明

需准备材料

常见问题

摘要:

权利要求书:

1.一种基于基音周期组合特征参数的声纹识别方法，其特征在于，包括如下步骤：S1：语音信号的采集输入；

S2：语音信号的预处理，主要包括预加重、分帧和加窗处理；

S3：语音信号组合特征参数提取：提取基音周期、LPCC、△LPCC、能量、能量的一阶差分以及GFCC特征参数共同组合成多维特征向量，其中：LPCC为线性预测倒谱系数，△LPCC为LPCC的一阶差分，GFCC为Gammatone滤波器倒谱系数；

S4：利用离散二进制粒子群优化算法对步骤S3中的多维特征向量进行筛选，将GMM-UBM识别过程中等错误率作为评价函数，选取使得等错误率最小的特征向量作为声纹识别的特征向量，其中所述GMM-UBM为高斯混合模型与通用背景模型相结合的说话人识别模型；

S5：使用GMM-UBM训练得到说话人的声音模型，即将语音库随机选取相应数量的语音训练得到通用背景模型UBM，然后利用最大后验准则自适应得到不同说话人的声音模型；

S6：提取经粒子群优化算法筛选后的测试语音的特征参数，利用步骤S5训练得到的GMM-UBM模型，计算出对数概率得分，选择概率得分最大者，即为目标说话人；

在步骤S4所述的离散二进制粒子群优化算法中，每个粒子的适应度按照以下方式计算：其中函数： Ai表示

多维特征向量中的第i维参量,Aj表示多维特征向量中的第j维参量，C是说话人的类别，i和j遍历于多维特征向量中的所有维数，H1(Aj)表示确定C之前Aj的熵，H1(C)表示确定Aj之前C的熵，H1(Aj|C)表示确定C之后Aj的熵，H2(Ai)表示确定Aj之前Ai的熵，H2(Aj)表示确定Ai之前Aj的熵，H2(Ai|Aj)表示确定Aj之后Ai的熵；

所述基音周期特征参数提取时，以m/N为步长对语音帧抽样，同时以生成在[1,2]之间的随机数作为抽样点值的倍数矩阵K相乘，获得新的语音帧，然后设定两个备选基音周期之间的路径转移权值为：然后采用遗传算法，使得两个备选基音周期之间的路径转移权值作为适应度值，通过不断的改变倍数矩阵K的值，使得适应度值最大，然后获得该语音帧信号对应的峰值大小为R(τ)，然后获得基音周期T0；

其中m为获得的语音帧的点数，N为语音帧个数，R1(τi)为第一个备选基音周期在第i个点的自相关函数峰值，R2(τj)为第二个备选基音周期在第j个点的自相关函数峰值。

2.根据权利要求1所述的基于基音周期组合特征参数的声纹识别方法，其特征在于，步骤S3中提取1维基音周期，12维LPCC，12维△LPCC，1维能量参数，1维一阶差分能量参数，22维GFCC参数，共同组成的49维特征向量。

3.根据权利要求1或2所述的基于基音周期组合特征参数的声纹识别方法，其特征在于，步骤S4中离散二进制粒子群优化算法的具体步骤包括：A1：装载训练数据集，设置初始化参数；

A2：随机产生初始群体，并为每个粒子生成随机初始化速度，设置粒子个体极值和群体的全局极值；

A3：评价每个粒子的适应值；

A4：对每个粒子，将其适应值与粒子个体极值的适应值进行比较，如果其适应值优于粒子个体极值的适应值，则将当前粒子的位置作为粒子个体极值；

A5：对每个粒子，将其适应值与群体全局极值的适应值进行比较，如果其适应值优于群体全局极值的适应值，则将当前粒子的位置作为群体全局极值；

A6：更新粒子速度和位置；

A7：判断迭代次数是否达到最大值，如果达到，则进入步骤A8，否则跳转到步骤A3；

A8：把最终的群体全局极值转换为对应的特征子集。

4.根据权利要求3所述的基于基音周期组合特征参数的声纹识别方法，其特征在于，步骤A6中更新粒子速度按照以下公式进行：式中：

表示第n次迭代时第i个粒子第d维的速度，表示第n+1次迭代时第i个粒子第d维的速度，表示第n次迭代时第i个粒子第d维的值，表示第n次迭代时第i个粒子的粒子个体极值第d维的值，表示第n次迭代时群体全局极值在第d维的值，d＝1,2,...,D表示粒子的维度，总共D维，i＝1,2,...,m，m为种群规模，w为惯性权重，c1是粒子跟踪自己历史最优值的权重系数，c2是粒子跟踪群体最优值的权重系数，r1、r2是[0,1]之间的随机数。

5.根据权利要求3所述的基于基音周期组合特征参数的声纹识别方法，其特征在于，更新粒子位置按照以下方法进行：针对第n+1次迭代时第i个粒子第d维的值而言，先按照计算位置状态改变概率；然后随机产生一个(0,1)之间的随机数rand()，如果则否则

其中表示第n次迭代时第i个粒子第d维的速度，表示第n+1次迭代时第i个粒子第d维的值。

6.根据权利要求1所述的基于基音周期组合特征参数的声纹识别方法，其特征在于，步骤S2中预加重滤波器的参数u取0.95，分帧采用的帧长为256，帧移为100，窗函数采用汉明窗。

7.根据权利要求1所述的基于基音周期组合特征参数的声纹识别方法，其特征在于，步骤S1中利用录音软件Cool Edit录制小语音库，去除静音段，并将噪声衰减10dB，其中采用频率为16KHz，量化比特为16bit的wav文件。