欢迎来到知嘟嘟! 联系电话:13336804447 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13336804447
知嘟嘟经纪人
收藏
专利号: 2015102683905
申请人: 重庆大学
专利类型:发明专利
专利状态:已下证
专利领域: 乐器;声学
更新日期:2024-02-23
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于基音周期混合特征参数的声纹识别方法,其特征在于,包括如下步骤:S1:语音信号的采集输入;

S2:语音信号的预处理,主要包括预加重、分帧和加窗处理;

S3:语音信号组合特征参数提取:提取基音周期、LPCC、ΔLPCC、能量、能量的一阶差分以及GFCC特征参数共同组合成多维特征向量,其中:LPCC为线性预测倒谱系数,△LPCC为LPCC的一阶差分,GFCC为Gammatone滤波器倒谱系数;

S4:利用离散二进制粒子群优化算法对步骤S3中的多维特征向量进行筛选,将GMM-UBM识别过程中等错误率作为评价函数,选取使得等错误率最小的特征向量作为声纹识别的特征向量,其中所述GMM-UBM为高斯混合模型与通用背景模型相结合的说话人识别模型;

S5:使用GMM-UBM训练得到说话人的声音模型,即将语音库随机选取相应数量的语音训练得到通用背景模型UBM,然后利用最大后验准则自适应得到不同说话人的声音模型;

S6:提取经粒子群优化算法筛选后的测试语音的特征参数,利用步骤S5训练得到的GMM-UBM模型,计算出对数概率得分,选择概率得分最大者,即为目标说话人。

2.根据权利要求1所述的基于基音周期混合特征参数的声纹识别方法,其特征在于,步骤S3中提取1维基音周期,12维LPCC,12维△LPCC,1维能量参数,1维一阶差分能量参数,22维GFCC参数,共同组成的49维特征向量。

3.根据权利要求1或2所述的基于基音周期混合特征参数的声纹识别方 法,其特征在于,步骤S4中离散二进制粒子群优化算法的具体步骤包括:A1:装载训练数据集,设置初始化参数;

A2:随机产生初始群体,并为每个粒子生成随机初始化速度,设置粒子个体极值和群体的全局极值;

A3:评价每个粒子的适应值;

A4:对每个粒子,将其适应值与粒子个体极值的适应值进行比较,如果其适应值优于粒子个体极值的适应值,则将当前粒子的位置作为粒子个体极值;

A5:对每个粒子,将其适应值与群体全局极值的适应值进行比较,如果其适应值优于群体全局极值的适应值,则将当前粒子的位置作为群体全局极值;

A6:更新粒子速度和位置;

A7:判断迭代次数是否达到最大值,如果达到,则进入步骤A8,否则跳转到步骤A3;

A8:把最终的群体全局极值转换为对应的特征子集。

4.根据权利要求3所述的基于基音周期混合特征参数的声纹识别方法,其特征在于,步骤A

3的每个粒子的适应度按照以下方式计算: 其中

其中函数: Ai表示多

维特征向量中的第i维参量,Aj表示多维特征向量中的第j维参量,C是说话人的类别,i和j遍历于多维特征向量中的所有维数,H1(Aj)表示确定C之前Aj的熵,H1(C)表示确定Aj之前C的熵,H1(Aj|C)表示确定C之后Aj的熵,H2(Ai)表示确定Aj之前Ai的熵,H2(Aj)表示确定Ai之前Aj的熵,H2(Ai|Aj)表示确定Aj之后Ai的熵。

5.根据权利要求3所述的基于基音周期混合特征参数的声纹识别方法,其特征在于,步骤A6中更新粒子速度按照以下公式进行:式中:

表示第n次迭代时第i个粒子第d维的速度, 表示第n+1次迭代时第i个粒子第d维的速度, 表示第n次迭代时第i个粒子第d维的值, 表示第n次迭代时第i个粒子的粒子个体极值第d维的值, 表示第n次迭代时群体全局极值在第d维的值,d=

1,2,...,D表示粒子的维度,总共D维,i=1,2,...,m,m为种群规模,w为惯性权重,c1是粒子跟踪自己历史最优值的权重系数,c2是粒子跟踪群体最优值的权重系数,r1、r2是[0,1]之间的随机数。

6.根据权利要求3所述的基于基音周期混合特征参数的声纹识别方法,其特征在于,更新粒子位置按照以下方法进行:针对第n+1次迭代时第i个粒子第d维的值而言,先按照 计算位置状态改变概率;然后随机产生一个(0,1)之间的随机数rand(),如果 则否则其中 表示第n次迭代时第i个粒子第d维的速度, 表示第n+1次迭代时第i个粒子第d维的值。

7.根据权利要求1所述的基于多类型组合特征参数的声纹识别方法,其特征在于,步骤S2中预加重滤波器的参数u取0.95,分帧采用的帧长为256,帧移为100,窗函数采用汉明窗。

8.根据权利要求1所述的基于多类型组合特征参数的声纹识别方法,其特征在于,步骤S1中利用录音软件Cool Edit录制小语音库,去除静音段,并将噪声衰减10dB,其中采用频率为16KHz,量化比特为16bit的wav文件。