1.一种回放语音检测方法,其特征在于:包括如下步骤:
1)训练阶段:
1.1)输入训练语音样本,所述训练语音样本包括原始语音和回放语音;
1.2)提取训练语音样本的倒谱特征,包括全频率倒谱系数特征、梅尔频率倒谱系数特征和常Q倒谱系数特征,分别根据全频率倒谱系数特征、梅尔频率倒谱系数特征和常Q倒谱系数特征得到对应的三个残差网络;
1.3)根据提取的特征训练残差网络模型,得到网络模型参数;
2)测试阶段:
2.1)输入测试语音样本;
2.2)提取测试语音样本的倒谱特征,包括全频率倒谱系数特征、梅尔频率倒谱系数特征和常Q倒谱系数特征,分别根据全频率倒谱系数特征、梅尔频率倒谱系数特征和常Q倒谱系数特征得到的残差网络识别结果;
2.3)利用步骤1)训练得到的残差网络对提取的测试语音样本的特征进行识别打分:通过步骤1.2)和步骤2.2)得到关于三种倒谱特征的子系统,将三个子系统的得分进行融合,融合的方式为将三个子系统的得分进行融合,公式为:S=i·SBFCC+j·SMFCC+k·SCQCC
其中,i、j、k分别为三个子系统得分的权重系数,约束条件为i+j+k=1,SBFCC、SMFCC、SCQCC分别为归一化后的全频率倒谱系数特征子系统、梅尔频率倒谱系数特征子系统和常Q倒谱系数特征子系统的得分;
2.4)判断测试语音样本是否为回放语音。
2.根据权利要求1所述的回放语音检测方法,其特征在于:1)全频率通过将训练语音样本或测试语音样本的语音信号进行分帧加窗处理,然后对分帧后的语音信号进行傅里叶变换求取其频谱系数Xi(k):其中,i表示分帧后的第i帧,k表示第i帧内的频率点,k=0,1,2,...,N‑1,j表示复数,m表示语音信号分帧后的帧数,N表示傅里叶变换点数;
2)然后求绝对值,得到相应的幅度谱系数Ei(k):
3)然后进行对数运算以及DCT变换,得到第i帧的全频率倒谱系数BFCC(i):
3.根据权利要求1或2所述的回放语音检测方法,其特征在于:残差网络包括依次连接的二维卷积层、残差块序列、Dropout层、第一全连接层、激活函数层、GRU层、第二全连接层和网络输出层。
4.根据权利要求3所述的回放语音检测方法,其特征在于:所述激活函数层采用泄露修正线性单元。
5.根据权利要求3所述的回放语音检测方法,其特征在于:在二维卷积层和激活函数层之间还具有批标准化处理层。
6.根据权利要求1或2所述的回放语音检测方法,其特征在于:在步骤2.4)中,将残差网络输出的得分与ASV系统得分相结合来判断测试语音样本是原始语音还是回放语音。