1.基于时序不一致性的深度伪造视频检测方法,其特征在于:该方法包括以下步骤:S1、获取实验数据集,将数据集分为训练、验证和测试集,并将视频处理为视频帧,同时提取视频帧中的人脸,将视频处理只包含人脸的视频帧;
S2、将经过处理的视频帧输入到微调的Xception网络中,其中Xception网络中加入卷积模块的注意力机制模块CBAM,结合空间和通道对网络进行训练,保存使得模型达到最好效果时的参数;
S3、用训练好的Xception模型去提取每个视频连续K帧序列的特征,提取每K帧的特征为一组作为双向长短期记忆网络Bilstm的输入进行训练,其中加入条件随机场CRF对Bilstm的预测结果进行调整,保存使得模型达到最好效果时的参数;
S4、使用训练好的双向长短期记忆网络Bilstm对待测试的视频进行检测,通过输出测试的准确率等来评估模型的性能。
2.根据权利要求1所述的基于时序不一致性的深度伪造视频检测方法,其特征在于:所述步骤S1具体包括:
S11、将视频按照一定的比例分为训练、验证、测试集,将视频真实视频与伪造视频进行标记,再根据视频帧率,对每个视频取一定比例的帧;
S12、将取到的帧通过人脸检测器检测出人脸区域,通过人脸地标进行对齐后按照一定的像素归一化处理。
3.根据权利要求1所述的基于时序不一致性的深度伪造视频检测方法,其特征在于:所述步骤S2具体包括:
S21、在Xception网络的全局池化层之前引入卷积模块的注意力机制模块CBAM,将通道注意力和空间注意力模块顺序的组合在一起,推断出各自的注意力权重,再与Xception网络block‑14提取的特征图相乘,对特征进行一定程度的自动调整,最后对Xception+CBAM网络进行微调;
S22、将打好标签的视频帧输入到Xception+CBAM的网络中进行视频帧特征提取的训练,保存使得模型达到最好效果时的参数。
4.根据权利要求1所述的基于时序不一致性的深度伪造视频检测方法,其特征在于:所述步骤S3具体包括:
S31、用训练好的Xception+CBAM网络提取视频连续N帧的特征;在Xception网络的全局池化层后接的是一个全连接层,输出的是512维的特征图,并将此特征图作为双向长短期网络Bilstm的输入;
S32、Bilstm由前向lstm和后向lstm组成;通过将提取的视频序列帧特征分别输入到前向lstm和后向lstm进行时序分析,通过结合视频帧的上下文信息,将前向lstm和后向lstm产生的特征向量进行拼接后进行分类预测;
S33、其中lstm通过遗忘门、输入门和输出门来控制遗忘和记忆的信息,为后续的时序分析传递有用的信息,使其结合视频帧特征的上下文信息来对当前帧进行预测;lstm三个门的计算过程如下:
遗忘门:通过计算决定遗忘哪些不重要的信息,保留哪些重要的信息;其公式为:ft=σ(bf[ht‑1,xt]+kf)其中ft是0~1的一个数值,表示上一个时刻的网络状态的保留情况;
输入门:通过计算决定增加哪些新信息以及更新哪些信息,其公式为:it=σ(bi[ht‑1,xt]+ki)it表示将要更新的值; 表示新的候选网络信息,Ct表示对网络状态进行更新;
输出门:结合更新完后的信息来判断输出网络的状态特征,其公式为:Ot=σ(bo[ht‑1,xt]+ko)ht=Ot*tanh(Ct)
Ot表示输出的判断条件;ht表示最终的输出;
其中公式中的b,k分别代表权重矩阵和偏置,σ是sigmoid函数,[ht‑1,xt]表示将上一个状态的输出ht‑1与当前状态的输入xt进行拼接;
S34、经过以上的计算将前向lstm与后向lstm的各自的时序输出ht进行拼接后的到每个标签的概率,将这些概率输入到条件随机场CRF中,CRF层通过自身学习一些约束来选择最佳的时序输出用于伪造视频的分类;通过CRF的转移矩阵和损失函数来对预测结果评分,最后选择评分最高的作为最后的预测序列;
S35、将S2中提取到的特征输入到Bilstm+CRF中进行训练,保存使得模型达到最好效果时的参数。
5.根据权利要求1所述的基于时序不一致性的深度伪造视频检测方法,其特征在于:所述步骤S4具体包括:
S41、将测试集输入训练好的模型,取连续K帧的评估结果来对视频进行真假分类;
S42、计算准确率Accuracy、精确率Precision、召回率Recall、F1评估检测方法的性能。
6.基于时序不一致性的深度伪造视频检测系统,其特征在于:该系统包括以下单元:数据预处理模块、视频帧特征提取模块、视频帧时序分析模块、伪造视频分类模块;
数据预处理模块,包括对数据集进行训练集、验证集、测试集的划分,对视频根据帧率进行分帧处理,同时根据人脸地标对齐提取人脸,并将取得的人脸图片进行归一化;
视频帧特征提取模块,引入卷积模块的注意力机制模块CBAM,以学习更好的视频帧级特征;
视频帧时序分析模块,考虑到单向的lstm不能考虑未来的信息,因此通过双向的长短期记忆网络Bilstm,结合特征序列的上下文信息来对输入序列在时序在进行一致性分析,最后对Bilstm的预测结果通过条件随机场CRF进行优化;
伪造视频分类模块,将测试集输入到整个网络中进行检测,通过计算准确率Accuracy指标来评估本发明系统的性能。