欢迎来到知嘟嘟! 联系电话:13336804447 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13336804447
知嘟嘟经纪人
收藏
专利号: 2018107452991
申请人: 宁波大学
专利类型:发明专利
专利状态:已下证
专利领域: 乐器;声学
更新日期:2025-12-12
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种回放语音检测方法,其特征在于包括以下步骤:

步骤一:选取Nreal个时长大于或等于1秒且各不相同的真实语音;然后获取每个真实语音对应的若干个回放语音;再将每个真实语音作为正样本,将从每个真实语音对应的所有回放语音中选择的至少1个回放语音作为负样本,由所有正样本和所有负样本构成语音数据库,语音数据库中的正样本的个数为Nreal个、负样本的个数为Nback个,即语音数据库中的语音样本的个数为Nreal+Nback;其中,Nreal≥500,Nreal≤Nback≤Nreal(1+pr),0≤pr≤13%;

步骤二:基于短时傅里叶变换获取语音数据库中的每个语音样本的第一变异系数向量和第一倒谱特征矩阵,将语音数据库中的第nsa个语音样本的第一变异系数向量和第一倒谱特征矩阵对应记为 和 然后采用倒谱均值方差归一化方法对语音数据库中的每个语音样本的第一倒谱特征矩阵进行去除信道不匹配和加性噪声干扰处理,得到语音数据库中的每个语音样本的归一化第一倒谱特征矩阵,将语音数据库中的第nsa个语音样本的归一化第一倒谱特征矩阵记为 其中,nsa为正整数,1≤nsa≤Nreal+Nback,为列向量, 的维数为L1,frame×1,L1,frame表示对语音数据库中的第nsa个语音样本进行第一次分帧处理后得到的帧的帧长, 和 的维数为13×N1,frame,N1,frame表示对语音数据库中的第nsa个语音样本进行第一次分帧处理后得到的帧的帧数;

基于常数Q变换获取语音数据库中的每个语音样本的第二变异系数向量和第二倒谱特征矩阵,将语音数据库中的第nsa个语音样本的第二变异系数向量和第二倒谱特征矩阵对应记为 和 然后采用倒谱均值方差归一化方法对语音数据库中的每个语音样本的第二倒谱特征矩阵进行去除信道不匹配和加性噪声干扰处理,得到语音数据库中的每个语音样本的归一化第二倒谱特征矩阵,将语音数据库中的第nsa个语音样本的归一化第二倒谱特征矩阵记为 其中, 为列向量, 的维数为L2,frame×1,L2,frame表示对语音数据库中的第nsa个语音样本进行第二次分帧处理后得到的帧的帧长, 和的维数为90×N2,frame,N2,frame表示对语音数据库中的第nsa个语音样本进行第二次分帧处理后得到的帧的帧数,N2,frame≠N1,frame;

步骤三:将语音数据库中的所有正样本的第一变异系数向量输入到GMM模型中进行训练,训练得到第一正样本特征模型;将语音数据库中的所有正样本的归一化第一倒谱特征矩阵输入到GMM模型中进行训练,训练得到第二正样本特征模型;将语音数据库中的所有正样本的第二变异系数向量输入到GMM模型中进行训练,训练得到第三正样本特征模型;将语音数据库中的所有正样本的归一化第二倒谱特征矩阵输入到GMM模型中进行训练,训练得到第四正样本特征模型;同样,将语音数据库中的所有负样本的第一变异系数向量输入到GMM模型中进行训练,训练得到第一负样本特征模型;将语音数据库中的所有负样本的归一化第一倒谱特征矩阵输入到GMM模型中进行训练,训练得到第二负样本特征模型;将语音数据库中的所有负样本的第二变异系数向量输入到GMM模型中进行训练,训练得到第三负样本特征模型;将语音数据库中的所有负样本的归一化第二倒谱特征矩阵输入到GMM模型中进行训练,训练得到第四负样本特征模型;

步骤四:取一个待检测的语音,记为Ytest;然后按照步骤二的过程,以相同的方式获得Ytest的第一变异系数向量和归一化第一倒谱特征矩阵及第二变异系数向量和归一化第二倒谱特征矩阵,对应记为 和 及 和 其中, 的维数为Ltest,1,frame×1,Ltest,1,frame表示对Ytest进行第一次分帧处理后得到的帧的帧长,的维数为13×Ntest,1,frame,Ntest,1,frame表示对Ytest进行第一次分帧处理后得到的帧的帧数,的维数为Ltest,2,frame×1,Ltest,2,frame表示对Ytest进行第二次分帧处理后得到的帧的帧长, 的维数为90×Ntest,2,frame,Ntest,2,frame表示对Ytest进行第二次分帧处理后得到的帧的帧数,Ntest,2,frame≠Ntest,1,frame;

步骤五:将 分别输入到第一正样本特征模型和第一负样本特征模型中进行测试,各得到一个测试得分,并计算两个测试得分的差值作为Ytest的第一似然比得分;将分别输入到第二正样本特征模型和第二负样本特征模型中进行测试,各得到一个测试得分,并计算两个测试得分的差值作为Ytest的第二似然比得分;将 分别输入到第三正样本特征模型和第三负样本特征模型中进行测试,各得到一个测试得分,并计算两个测试得分的差值作为Ytest的第三似然比得分;将 分别输入到第四正样本特征模型和第四负样本特征模型中进行测试,各得到一个测试得分,并计算两个测试得分的差值作为Ytest的第四似然比得分;然后计算Ytest的第一似然比得分、第二似然比得分、第三似然比得分和第四似然比得分中的至少两个似然比得分的平均分,并将计算得到的平均分作为Ytest的最终得分;再比较Ytest的最终得分与设定的判定阈值,如果Ytest的最终得分大于或等于设定的判定阈值,则判定Ytest为真实语音,如果Ytest的最终得分小于设定的判定阈值,则判定Ytest为回放语音。

2.根据权利要求1所述的一种回放语音检测方法,其特征在于所述的步骤一中,获取每个真实语音对应的回放语音的过程中,涉及到的录制设备有多种、涉及到的回放设备有多种、涉及到的回放环境有多种。

3.根据权利要求1或2所述的一种回放语音检测方法,其特征在于所述的步骤二中,的获取过程为:

A1)、对语音数据库中的第nsa个语音样本进行第一次分帧处理,将语音数据库中的第nsa个语音样本分成N1,frame帧,且帧长为L1,frame,帧与帧之间的重叠为 然后将语音数据库中的第nsa个语音样本中的每帧乘以汉宁窗,以增加帧与帧之间的连续性;其中,符号 为向上取整运算符号, 表示语音数据库中的第nsa个语音样本的采样点数,L1,frame=256,512,1024;

A2)、在步骤A1)的基础上,对语音数据库中的第nsa个语音样本中的每帧进行短时傅里叶变换,得到语音数据库中的第nsa个语音样本中的每帧的傅里叶变换频谱系数向量,将语音数据库中的第nsa个语音样本中的第n1,frame帧的傅里叶变换频谱系数向量记为然后将语音数据库中的第nsa个语音样本中的所有帧的傅里叶变换频谱系数向量组成语音数据库中的第nsa个语音样本对应的傅里叶变换频谱系数矩阵,记为 其中,短时傅里叶变换的采样点数与帧长一致,n1,frame为正整数,1≤n1,frame≤N1,frame,为列向量, 的维数为L1,frame×1, 的维数为L1,frame×N1,frame;

A3)、计算 中的每行中的所有频谱系数的均值和标准差;然后根据计算得到的所有均值和标准差,获取语音数据库中的第nsa个语音样本的第一变异系数向量 将中的第i1个元素记为 的值等于 中的第i1行中的所有频谱系数的标准差除以 中的第i1行中的所有频谱系数的均值;其中,i1为正整数,1≤i1≤L1,frame。

4.根据权利要求3所述的一种回放语音检测方法,其特征在于所述的步骤二中,的获取过程为:

B1)、对语音数据库中的第nsa个语音样本进行第二次分帧处理,将语音数据库中的第nsa个语音样本分成N2,frame帧,且帧长为L2,frame,帧与帧之间的重叠为 然后将语音数据库中的第nsa个语音样本中的每帧乘以汉宁窗,以增加帧与帧之间的连续性;其中,符号 为向上取整运算符号, 表示语音数据库中的第nsa个语音样本的采样点数,L2,frame的值与常数Q变换中的一个八度的频率范围内包含的谱线数B有关,B=96,64,32,B=96时L2,frame=863,B=64时L2,frame=575,B=32时L2,frame=287;

B2)、在步骤B1)的基础上,对语音数据库中的第nsa个语音样本中的每帧进行常数Q变换,得到语音数据库中的第nsa个语音样本中的每帧的Q变换频谱系数向量,将语音数据库中的第nsa个语音样本中的第n2,frame帧的Q变换频谱系数向量记为 然后将语音数据库中的第nsa个语音样本中的所有帧的Q变换频谱系数向量组成语音数据库中的第nsa个语音样本对应的Q变换频谱系数矩阵,记为 其中,常数Q变换的采样点数与帧长一致,n2,frame为正整数,1≤n2,frame≤N2,frame, 为列向量, 的维数为L2,frame×1, 的维数为L2,frame×N2,frame;

B3)、计算 中的每行中的所有频谱系数的均值和标准差;然后根据计算得到的所有均值和标准差,获取语音数据库中的第nsa个语音样本的第二变异系数向量 将中的第i2个元素记为 的值等于 中的第i2行中的所有频谱系数的标准差除以 中的第i2行中的所有频谱系数的均值;其中,i2为正整数,1≤i2≤L2,frame。

5.根据权利要求4所述的一种回放语音检测方法,其特征在于所述的步骤五中的判定阈值的设定过程为:

1)选取一个包含有多个真实语音及每个真实语音对应的回放语音的测试语音集;

2)按照步骤二的过程,以相同的方式获得测试语音集中的每个真实语音和每个回放语音的第一变异系数向量和归一化第一倒谱特征矩阵及第二变异系数向量和归一化第二倒谱特征矩阵;

3)按照步骤五的过程,以相同的方式获得测试语音集中的每个真实语音和每个回放语音的最终得分;然后从测试语音集中的所有真实语音和回放语音的最终得分中找出最小得分和最大得分,对应记为Smin和Smax;

4)令θ表示候选判定阈值,令Pfa(θ)表示错误接受率, 令Pmiss(θ)表示错

误拒绝率,令 其中,Smin≤θ≤Smax,N1,total表示测试语音集中包含的回放语音的总个数,N1表示最终得分大于或等于θ的所有回放语音的总个数,N2,total表示测试语音集中包含的真实语音的总个数,N2表示最终得分小于θ的所有真实语音的总个数;

5)在区间[Smin,Smax]内以步长为0.01遍历θ,将满足|Pfa(θ)-Pmiss(θ)|≤0.05的最小的θ值作为判定阈值。

6.根据权利要求5所述的一种回放语音检测方法,其特征在于所述的步骤五中,计算Ytest的第一似然比得分、第二似然比得分和第四似然比得分的平均分作为Ytest的最终得分。