1.一种基于注意力机制和Bi‑LSTM的伪装语音检测方法,其特征在于,包括:S1.提取语音样本中与语音相对应的语音特征数据,并将所述提取出的语音特征数据转换为语音图像数据;
S2.采用双向长短期记忆网络Bi‑LSTM对所述转换得到的语音图像数据进行处理,得到图像数据的深度特征;
S3.采用注意力机制对所述得到的深度特征进行计算,得到注意力的概率分布;
S4.采用DNN分类器对得到的注意力概率分布进行分类,得到最终的伪装语言检测结果;
步骤S4中得到最终的伪装语言检测结果是通过计算接近真实语音的帧数来判断是否为欺骗语音;
通过计算接近真实语音的帧数来判断是否为欺骗语音,表示为:其中,P(h|Fi)表示真实语音节点的输出值;P(Sk|Fi)表示欺骗语音节点的输出值,真实语音节点的输出值P(h|Fi)比0.5要大的语音帧数超过总的帧数一半,则认为该语音是真实语音,否则为欺骗语音。
2.根据权利要求1所述的一种基于注意力机制和Bi‑LSTM的伪装语音检测方法,其特征在于,步骤S1中将所述提取出的特征数据转换为语音图像数据,具体包括:S11.通过高通滤波器对语音特征数据的高频部分进行预增强;
S12.对语音特征数据进行分帧处理,得到语音特征数据的每一帧信号以及每一帧信号的样本点数;
S13.对所述得到的语音特征数据的每一帧信号进行加窗;
S14.对所述得到的每一帧信号的样本点数进行补零;
S15.对进行分帧、加窗处理后的语音特征数据做进行补零后样本点数的快速傅里叶变换FFT,得到语音特征数据的频谱,并对的所述语音特征数据的频谱进行取模运算,得到语音特征数据的功率谱;
S16.通过梅尔滤波器对语音特征数据的中低频部分进行处理,得到梅尔谱;并对所述得到的梅尔谱进行对数计算,得到对数梅尔谱;
S17.采用离散余弦变换DCT对得到的对数梅尔谱进行变换处理,得到梅尔倒谱,并输出语音特征数据每一帧的梅尔频率倒谱系数MFCC;
S18.将每一帧的梅尔频率倒谱系数MFCC按照数值大小转换为不同的颜色,最后生成语音图像数据。
3.根据权利要求2所述的一种基于注意力机制和Bi‑LSTM的伪装语音检测方法,其特征在于,步骤S13中对得到的语音特征数据的每一帧信号进行加窗,加窗采用的是汉明窗,表示为:w(n)=0.54‑0.46cos(2πn/L)其中,L表示帧长。
4.根据权利要求2所述的一种基于注意力机制和Bi‑LSTM的伪装语音检测方法,其特征在于,步骤S16中通过梅尔滤波器对语音特征数据的中低频部分进行处理,具体为:计算梅尔滤波器的梅尔频率分布,把梅尔频率转换成实际频率,表示为:计算梅尔频率分辨率,表示为:
f(i)=floor((n+1)*h(i)/fs)其中,fs表示语音的采样频率;
定义若干个带通滤波器Hm(k),0≤m≤M,M是滤波器个数,每个带通滤波器的输出表示为:其中,m表示第m个滤波器;f(m)表示第m个滤波器的中心频率;f(m‑1)表示滤波器的上限频率;f(m+1)表示滤波器的下限频率。
5.根据权利要求2所述的一种基于注意力机制和Bi‑LSTM的伪装语音检测方法,其特征在于,步骤S17中得到梅尔倒谱,表示为:其中,c(n)表示n阶梅尔倒谱系数;S[m]表示梅尔滤波器组的输出信号的对数能量,M表示滤波器的个数。