1.一种基于卷积神经网络的数字音频篡改被动检测方法,其特征在于,包括步骤1、对原始语音信号进行处理得到电网频率ENF成分;
步骤2、根据步骤1得到的ENF成分,提取基于DFT1的相位谱拟合特征参数 与相位波动特征 ,基于Hilbert变换的频率谱拟合特征参数 ,获得组合特征 ;
步骤3、使用步骤2中的组合特征 训练通用背景模型UBM,对包含篡改语音和未篡改语音的待训练语音信号按步骤2提取出组合特征 ,对UBM模型参数通过自适应MAP来更新模型参数;得到待训练语音的均值矩阵作为ENF高斯均值超矢量;
步骤4、采用卷积神经网络CNN对步骤3中得到的ENF高斯均值超矢量进行训练,使用注意力机制attention对CNN卷积层的输出特征进行特征选择以去除对分类无效的特征,使用sofmax层进行篡改检测;
步骤3是获取ENF高斯均值超矢量,具体包括:步骤3.1、对于D维语音特征 ,用于计算其似然函数的公式为:(1)
式中,似然函数由 个单高斯密度函数 加权得到, 是混合权重分量,其中每一个高斯分量的均值 和协方差 的大小分别为: 和 ;
(2)
其中 为第 个 维高斯分量的概率密度函数,混合权重分量 满足 ,假设 表示模型参数的集合,则有 , ,该模型通过期望最大化EM迭代训练得出;
步骤3.2、用EM算法获取参数 ,先给予 一个初始值,然后估计出新参数 ,使得在下的似然度更高,即 ,新参数再作为当前参数进行训练,不断迭代,各参数的重估计公式为:(3)
其中 代表混合权重, 表均值和 为协方差矩阵;
步骤3.3、首先将原始语音与训练语音按步骤2提取处组合特征 ,用原始语音的特征按步骤3.2训练UBM模型,然后将训练语音的每个特征向量送入到UBM模型中,将经过MAP自适应得出的均值单独保留下来作为ENF高斯均值超矢量,其中,训练语音包含未篡改语音与篡改语音;
步骤4是卷积神经网络模型训练,具体包括:步骤4.1、构建卷积神经网络CNN,CNN网络模型由三个卷积块组成,每个块包含激活函数为Relu的两层卷积层、一层poolsize为2的MaxPool层,滤波器个数分别为64、128、256;
步骤4.2、 最后一个卷积块的输出输入到attention机制中进行特征选择,具体是:A、最后一个卷积块的输出进行Flatten操作后输入进神经元个数为1024的全连接层,激活函数为Relu;
B、步骤A中的全连接层的输出通过一层全连接层和sigmoid层;
C、步骤A中的全连接层的输出与步骤B中sigmoid的输出相乘;
步骤4.3、 步骤4.2.C中的输入到神经元个数为128的全连接层,激活函数为Relu,最后神经元个数为2且激活函数为softmax的全连接层作为输出层进行分类,具体是:A、4.2.C中的输入到神经元个数为128的全连接层;
B、步骤A中的输出输入到神经元个数为2的全连接层,激活函数为Relu;
(4)
其中 表示第 个神经元的输入, 为本层神经元个数, 表示待测语音是原始语音还是篡改语音的概率;
C、最后输出层得到的概率可得出待测语音是否被篡改,计算所有测试语音正确识别是否被篡改的概率,即系统的识别率。
2.根据权利要求1所述的一种基于卷积神经网络的数字音频篡改被动检测方法,其特征在于,步骤1是对原始语音信号依次进行下采样、窄带滤波得到ENF成分;具体包括:步骤1.1、下采样:在保证提取ENF精度的同时,有效减少计算量;将信号重采样频率定为1000HZ或者1200HZ;
步骤1.2、窄带滤波:为了防止相位延时得到理想的窄带信号,使用10000阶的线性零相位FIR滤波器进行窄带滤波,中心频率在ENF标准处,带宽为0.6HZ,通带波纹0.5dB,阻带衰减为100dB。
3.根据权利要求1所述的一种基于卷积神经网络的数字音频篡改被动检测方法,其特征在于,步骤2中,提取特征的具体方法包括:步骤2.1、计算ENF信号 在点n处的近似一阶导数(5)
其中 表示近似求导操作, 表示ENF成分第 个点的值;
步骤2.2、对 进行分帧加窗,帧长为10个标准ENF频率周期为 或 ,帧移为1个标准ENF频率周期为 或 ,用汉宁窗 对 进行加窗(6)
其中汉宁窗 , 为窗长;
步骤2.3、每帧信号 与 分别执行N点离散傅里叶变换DFT得到 、,根据 的峰值点的整数索引 估计频率
(7)
其中 , , 是一个尺度系
数;
(8)
其中 表示离散傅里叶变换点数,为峰值点索引;
步骤2.4、计算 的相位 , ;
步骤2.5、计算 的相位
(9)
其中 , 为重采样频率, ,
, , , 表示小于a的最
大整数, 表示大于b的最小整数;
步骤2.6、步骤2.5中 有两个可能的值,用步骤2.4中 作为参考,选择 中最接近 的值;
步骤2.7、将步骤2.5中得到的 的相位 代入式(6)得到ENF相位波动特征F(10)其中 表示 从 到 的平均值, 表示帧数,, , 为相应第 帧的估计相位;
步骤2.8、对信号 进行离散Hilbert变换;首先得到 的解析函数(11)
其中 ,H代表Hilbert变换;瞬时频率 是 相角的变化率;
步骤2.9、对步骤2.8中的 进行低通滤波,去除震荡;使用五阶椭圆滤波器IIR滤波器;中心频率为ENF标准频率,带宽为20HZ,通带波纹为0.5HZ,阻带衰减为64HZ;由于频率估计的边界效应,去掉 头尾各大约1s,最后得到ENF成分的瞬时频率估计 ;
步骤2.10、对步骤2.5中得到的相位特征 和步骤2.9中得到的瞬时频率特征 进行曲线拟合,提取相位谱拟合特征 ,频率谱拟合特征;
用Sum of Sines来拟合相位特征,其形式为:(12)
其中 是振幅,是频率,是每个正弦波项的相位常量,指这个序列的数量,, , 为 的长度, 为相位特征 ;
用Gaussian来拟合瞬时频率特征,其形式为:(13)
其中 是峰值幅度,是峰值所在位置,与峰的旁瓣有关, 指拟合了多少个峰值,, , 为 的长度, 为瞬时频率特征 ;
步骤2.11、由步骤2.10中的频率谱拟合特征 和相位谱拟合特征 ,步骤2.7中的相位波动特征 ,获得组合特征 。