欢迎来到知嘟嘟! 联系电话:13336804447 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13336804447
知嘟嘟经纪人
收藏
专利号: 2020110342015
申请人: 湖北工业大学
专利类型:发明专利
专利状态:已下证
专利领域: 乐器;声学
更新日期:2024-01-05
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于卷积神经网络的数字音频篡改被动检测方法,其特征在于,一种基于卷积神经网络的数字音频篡改被动检测方法,其特征在于,包括步骤1、对原始语音信号进行处理得到电网频率(ENF)成分;

步骤2、根据步骤1得到的ENF成分,提取基于DFT1的相位谱拟合特征参数Pcoe与相位波动特征F1,基于Hilbert变换的频率谱拟合特征参数Fcoe,获得组合特征X=[Fcoe,Pcoe,F1];

步骤3、使用步骤2中的组合特征X训练通用背景模型(UBM),对包含篡改语音和未篡改语音的待训练语音信号按步骤2提取出组合特征X,对UBM模型参数通过自适应MAP来更新模型参数;得到待训练语音的均值矩阵作为ENF高斯均值超矢量;

步骤4、采用卷积神经网络CNN对步骤3中得到的ENF高斯均值超矢量进行训练,使用注意力机制attention对CNN卷积层的输出特征进行特征选择以去除对分类无效的特征,使用sofmax层进行篡改检测。

2.根据权利要求1所述的一种基于卷积神经网络的数字音频篡改被动检测方法,其特征在于,步骤1是对原始语音信号依次进行下采样、窄带滤波得到ENF成分;具体包括:步骤1.1、下采样:在保证提取ENF精度的同时,有效减少计算量;将信号重采样频率定为1000HZ或者1200HZ;

步骤1.2、窄带滤波:为了防止相位延时得到理想的窄带信号,使用10000阶的线性零相位FIR滤波器进行窄带滤波,中心频率在ENF标准(50HZ或60HZ)处,带宽为0.6HZ,通带波纹

0.5dB,阻带衰减为100dB。

3.根据权利要求1所述的一种基于卷积神经网络的数字音频篡改被动检测方法,其特征在于,步骤2中,提取特征的具体方法包括:步骤2.1、计算ENF信号XENFC[n]在点n处的近似一阶导数x′ENFC[n]=fd(XENFC[n]-XENFC[n-1])      (1)其中fd(*)表示近似求导操作,XENFC[n]表示ENF成分第n个点的值;

步骤2.2、对x′ENFC[n]进行分帧加窗,帧长为10个标准ENF频率周期 帧移为1个标准ENF频率周期 用汉宁窗w(n)对x′ENFC[n]进行加窗x′N[n]=x′ENFC[n]w(n)        (2)其中汉宁窗 L为窗长;

步骤2.3、每帧信号x′N[n]与XENFC[n]分别执行N点离散傅里叶变换(DFT)得到X′(k)、X(k),根据|X′(k)|的峰值点的整数索引kpeak估计频率

0 1

其中DFT[kpeak]=X(kpeak),DFT[kpeak]=F(kpeak)|X′(kpeak)|,F(kpeak)是一个尺度系数;

其中NDFT表示离散傅里叶变换点数,k为峰值点索引;

步骤2.4、计算xENFC的相位

步骤2.5、计算x′ENFC的相位

其中 fd为重采样频率,

floor[a]表示小于a的

最大整数,ceil[b]表示大于b的最小整数;

步骤2.6、步骤2.5中 有两个可能的值,用步骤2.4中 作为参考,选择 中最接近 的值;

步骤2.7、将步骤2.5中得到的x′ENFC的相位 代入式(6)得到ENF相位波动特征F其中 表示 从nb=2到NBlock的平均值,NBlock表示帧数,

2≤nb≤NBlock, 为相应第nb帧的估计相位;

步骤2.8、对信号XENFC[n]进行离散Hilbert变换;首先得到XENFC[n]的解析函数x(a)ENFC[n]=XENFC[n]+i*H{XENFC[n]}      (7)其中 H代表Hilbert变换;瞬时频率f[n]是H{XENFC[n]}相角的变化率;

步骤2.9、对步骤2.8中的f[n]进行低通滤波,去除震荡;使用五阶椭圆滤波器IIR滤波器;中心频率为ENF标准频率,带宽为20HZ,通带波纹为0.5HZ,阻带衰减为64HZ;由于频率估计的边界效应,去掉f[n]头尾各大约1s,最后得到ENF成分的瞬时频率估计fhil;

步骤2.10、对步骤2.4中得到的相位特征 和步骤2.7中得到的瞬时频率特征fhil进行曲线拟合,提取相位谱拟合特征Fp[a1,b1,c1,…,ai,bi,ci](0<i≤5),频率谱拟合特征Ff[a1,b1,c1,…,ai,bi,ci](0<i≤5);

用Sum of Sines来拟合相位特征,其形式为:

其中a是振幅,b是频率,c是每个正弦波项的相位常量,n指这个序列的数量,1≤n≤9,x=[1,2,…,len(φ)],len(φ)为 的长度,y为相位特征用Gaussian来拟合瞬时频率特征,其形式为:

其中a是峰值幅度,b是峰值所在位置,c与峰的旁瓣有关,n指拟合了多少个峰值,1≤n≤8,x=[1,2,…,len(f)],len(f)为fhil的长度,y为瞬时频率特征fhil;

步骤2.11、由步骤2.8中的频率谱拟合特征Ff和相位谱拟合特征FP,步骤2.5中的相位波动特征F,获得组合特征X=[Ff,FP,F]。

4.根据权利要求1所述的一种基于卷积神经网络的数字音频篡改被动检测方法,其特征在于,步骤3是获取ENF高斯均值超矢量,具体包括:步骤3.1、对于D维语音特征X={x1,x2,…,xT},用于计算其似然函数的公式为:式中该密度函数由K个单高斯密度函数pk(xt)加权得到,wi式混合权重分量,其中每一个高斯分量的均值μk和协方差∑k的大小分别为:1×D和D×D;

其中pk(xt)为第k个D维高斯分量的概率密度函数,混合权重wk满足 假设λ表示模型参数的集合,则有λ={wk,μi,∑k},k=1,2,…,K,该模型通过期望最大化(EM)迭代训练得出;

步骤3.2、用EM算法获取参数λ,先给予λ一个初始值,然后估计出新参数λ′,使得在λ′下的似然度更高,即p(X|λ′)≥p(X|λ),新参数再作为当前参数进行训练,不断迭代,各参数的重估计公式为:其中wk代表混合权重,μk表均值和∑k为协方差矩阵;

步骤3.3、首先将原始语音与训练语音(包含未篡改语音与篡改语音)按步骤2提取处组合特征X,用原始语音的特征X按步骤3.2训练UBM模型,然后将训练语音的每个特征向量送入到UBM模型中,将经过MAP自适应得出的均值单独保留下来作为ENF高斯均值超矢量。

5.根据权利要求1所述的一种基于卷积神经网络的数字音频篡改被动检测方法,其特征在于,步骤4是卷积神经网络模型训练,具体包括:步骤4.1、构建卷积神经网络(CNN),CNN网络模型由三个卷积块组成(滤波器个数分别为64、128、256),每个块包含两层卷积层(激活函数为Relu)、一层MaxPool层(poolsize为

2);

步骤4.2、最后一个卷积块的输出输入到attention机制中进行特征选择,具体是:A、最后一个卷积块的输出进行Flatten操作后输入进神经元个数为1024的全连接层(激活函数为Relu);

B、步骤A中的全连接层的输出通过一层全连接层和sigmoid层;

C、步骤A中的全连接层的输出与步骤B中sigmoid的输出相乘;

步骤4.3、步骤4.2.C中的输入到神经元个数为128的全连接层(激活函数为Relu),最后神经元个数为2的全连接层(激活函数为softmax)作为输出层进行分类,具体是:A、4.2.C中的输入到神经元个数为128的全连接层;

B、步骤A中的输出输入到神经元个数为2的全连接层(激活函数为softmax)其中fc表示第c个神经元的输入,C=2为本层神经元个数,pc表示待测语音是原始语音还是篡改语音的概率;

C、最后输出层得到的概率可得出待测语音是否被篡改,计算所有测试语音正确识别是否被篡改的概率,即系统的识别率。