1.一种网络敏感视频检测方法,包括以下步骤:
步骤1)从网络中获取视频URL,对视频URL作去重处理后,以流媒体的形式下载视频;
所述的从网络中获取视频URL的过程中,先从网络上行数据流中获取含有视频请求信息的数据包,再从含有视频请求信息的数据包中获取视频URL;对于视频请求信息分布在多个数据包中的情况,需先进行数据重组,再提取视频URL;对于视频请求信息隐藏而cookie中包含视频类型的情况,需先从cookie中获取视频类型,再验证数据包中的URL是否为视频URL;对于视频请求信息设置防盗的情况,需通过请求信息复制及嫁接技术,模拟客户请求,进而绕过防盗链的设置;
步骤2)采用自适应自反馈抽样策略从视频中抽取视频关键帧,生成抽样视频序列;
所述的从视频中抽取视频关键帧,生成抽样视频序列的过程中,采用自适应自反馈抽样策略抽取视频关键帧,即根据视频的长度和类型的不同,自动调整抽样策略,假设有任意一个视频k,从视频k中抽取视频关键帧的策略表示为: 其中:n表示视频k分成的总段数;m表示视频k的第i段视频的总帧数,记为m=f(t(k)),其中t(k)表示视频k的时间长度,即m的值由函数f(t(k))决定;i表示视频k中的第i段视频,j表示第i段视频中的第j个帧;αi为稀疏系数,用于表示在视频k的第i段视频中抽取关键帧的稀疏程度,当取值为0时,表示抽取所有帧,当取值为1时,表示连续抽取所有的关键帧,当其值为n(n>1)的整数时,表示隔n-1抽取关键帧;Γi表示视频k的第i段视频的起始位置,记为:Γi=Γi’+βPi,其中Γi’表示第i段视频中的帧在反馈定位前的初始位置,Pi表示反馈频次,β为放大系数;ψi,j(t(k),Γi)表示在视频k的第i段视频中抽取的关键帧的集合;
步骤3)从视频中分离出音频文件,提取音频特征,并与敏感音频特征库进行匹配,得到音频敏感度Rs;
所述的从音频文件中提取音频特征的过程中,提取的音频特征为12维的梅尔频率倒谱参数特征,并将音频特征与敏感音频特征库进行匹配,得到音频敏感度Rs;
步骤4)采用帧识别引擎对抽样视频序列的帧静态内容与视频动态性进行检测,并计算抽样视频序列的内容敏感度Rv;
所述的采用帧识别引擎对抽样视频序列的帧静态内容与视频动态性进行检测的过程中,帧静态内容检测包括:肤色检测、纹理检测、皮肤规则度检测、人脸检测和肢体检测;视频动态性检测包括:运动检测和敏感帧连续性检测;
步骤5)将内容敏感度Rv和音频敏感度Rs相融合,得到视频的敏感度检测的最终结果;
所述的将视频的内容敏感度Rv和音频敏感度Rs相融合,得到视频的最终检测结果的过程中,若视频中不能提取出音频文件,则视频的最终检测结果以视频内容的检测结果为准;
若视频中能提取出音频文件,则融合器定义为: 其中符号 表示条件融合关系,也就是Rs可提高Rv的等级,但不降低Rv的等级;
在上述步骤3)与步骤4)间加入以下步骤:
步骤a)利用快速分类模型对抽样视频序列进行匹配,若匹配成功,则视频直接判定为敏感视频,视频检测结束;否则,转入步骤b);
步骤b)利用视频标签模型对抽样视频序列进行匹配,若匹配成功,则视频直接判定为敏感视频,视频检测结束;否则,转入步骤4);
其特征在于:步骤a)所述的快速分类模型匹配的过程中,所建的快速分类模型包括:裸聊子类视频模型、舞台子类视频模型和高光背景子类视频模型;裸聊子类视频模型描述为:令F={Fi|i=1,2,...,N}为抽取到的视频帧集,(x,y)处像素的亮度为g(x,y),视频帧的宽为W,高为H,若帧的平均亮度avg_gray>Th_LL1,两帧间的变化率chan_ratio<Th_LL2,内容中检测到人脸的帧的数目小于抽取的总帧数的5%,则认为是裸聊视频;其中Th_LL1为帧的平均亮度阈值,Th_LL2为两帧间的变化率阈值,两帧间的变化率为 舞台子类和高光背景子类视频模型描述为:假设帧Fi为平均亮度值Grayi,Lab表示帧间变化剧烈度,令若Lab>Th_WT2,则认为该视频为舞台类视频,否则认为非舞台类视频;其中Th_WT1为帧的亮度差阈值,Th_WT2为帧间的变化剧烈度阈值。
2.根据权利要求1所述的一种网络敏感视频检测方法,其特征在于:步骤b)所述的采用视频标签模型匹配的过程中,视频标签是指视频内容的自定义标识,用于描述视频的类别;视频标签模型描述为:令Ft为t时刻的关键帧,计算Ft的灰度图的水平梯度,以确定Ft是否含有候选标签,计算得到各帧的候选标签区域后,计算视频标签的基准边界;获得视频标签的基准边界后,在T个关键帧中挑选边界与基准边界最相近的K个帧,并提取相应的视频标签;然后将这些视频标签与标签库中的标准标签匹配,若此K个标签中有超过一半的标签与标签库中的某个标准标签相匹配,则确定视频中含有与标准标签相同的视频标签。
3.根据权利要求1所述的一种网络敏感视频检测方法,其特征在于:步骤4)所述的肤色检测采用基于YCbCr和RGB颜色空间的自适应选择方法,假设帧的3个颜色分量R、G、B的均值分别为avgR、avgG、avgB;avgGray为平均灰度值,maxCom为最大颜色分量,minCom为最小颜色分量,avgGap为帧的灰度差,对于满足条件avgGap<th_gray的帧,采用灰度世界假设原理进行色彩均衡,对于满足条件avgGap≥th_grayGap的帧,在RGB颜色空间中获取帧中的肤色点,其中:th_gray为灰度调整阈值,th_grayGap为灰度差最大阈值,其余情况下,将RGB颜色空间转换到YCbCr颜色空间后,在YCbCr颜色空间中获取帧中的肤色点的集合Φ;
所述的在纹理检测的过程中首先检测肤色掩码区域的像素点颜色分布的均匀程度,将初始帧均匀地分成M*N的区块,然后以区块为单位进行纹理过滤,通过计算区块内肤色点的变化剧烈程度确定该区块是否为纹理块;
所述的皮肤规则度检测如下:令肤色掩码图上区域的个数为Num,这些区域的标注分别用Ri表示,其中i=1,2,...,Num,标识为Ri的区域中包含的像素点的数目为Ci,肤色掩码图的皮肤规则度的计算公式为 其中 MC=max(Ci),MI={i|Ci=MC},α和β表
示权重因子,max为取最大值函数,Ei为标识为Ri的区域中的边缘点的数目,EMI为包含像素点数最多的区域的边缘点数目;
所述的人脸检测是指:首先对初始帧的进行人脸检测,得到检测结果FD,然后分别对经顺时针45°旋转后的帧和经逆时针45°旋转后的帧进行人脸检测,最终结果为FDL,其值来自FD∪Rotate(FD,45°)∪Rotate(FD,-45°),人脸检测包括肖像 帧检测和多人脸检测;
所述的肢体检测过程依赖人脸检测结果,设人脸宽为WF,高为HF,人脸下边缘中心点为(Fx,Fy),则人体疑似区域为人脸下方的矩形区域,矩形区域宽WR为4WF,高HR为5HF,设人体疑似区域内肤色点个数为num,肤色重心为(Bx,By),肤色像素的坐标为(SPxi,SPyi),其中 则人体中心线为(Fx,Fy)和(Bx,By)的连线y=kx-kCx+Cy,其夹角斜率k=(Fy-Cy)/(Fx-Cx),设人体宽度为WB,直线y分别向左和向右平移,平移直线分别记为y1和y2,平移距离为 则由y1、y2和人体疑似区域围成的区域为初步定位的人体区域,人体区域内的肤色像素区域判定为人体;
所述的运动检测中利用视频帧差法和直方图帧差法提取场景中的运动目标,直方图帧差法用来确认镜头切换或场景变化的剧烈程度,镜头切换或场景变化剧烈时不提取运动目标,同一镜头中的帧集中采用视频帧差法提取运动目标,视频帧差的计算公式为FD=|V(i+1),V(i)|,V(i)表示第i帧,||表示取两个视频帧的差,当FD>th_FD时,标记为运动目标区域,在运动目标区域中提取运动人体,其中th_FD为视频帧差阈值;
所述的敏感帧连续性检测描述如下:假设抽样视频序列被分S段,Vi为其中的第i段,i=1,2,...,S,Vi段的总帧数为FM,敏感帧连续段定义为在Vi中连续出现的多个敏感帧,令fk(Vi)为Vi中出现的第k个敏感帧连续段的连续帧数,当fk(Vi)>n时,dk=
1,否则,dk=0,其中n为最小连续帧阈值,若Vi中共有Li个敏感帧连续段,则fM(Vi)=max(fk(Vi)),k=1,2,...,Li,令敏感帧连续段帧数Vi 的敏感帧连续性定义为 其中α和β表示权重因子,在应用中α=0.35,β=
0.65,则视频的敏感帧连续性定义为Q=max(Qi)。
4.根据权利要求1所述的一种网络敏感视频检测方法,其特征在于:步骤4)所述的计算视频的内容敏感度Rv的方法如下:令label为视频标签,AVG_MG为视 频敏感帧比例,mgR为视频分段平均敏感度,则视频的内容敏感度Rv定义为,若label=1或AVG_MG>th_Rv1或mgR>th_mgR,则Rv=1,即认为视频是敏感的;若label=0且AVG_MG>th_Rv2且AVG_MG≤th_Rv1且mgR≤th_mgR,则Rv=0.5,即认为视频是疑似敏感的;其它情况下,则Rv=0,即认为视频是正常的,其中:视频分段平均敏感度是抽取的各段视频敏感度的平均值,即 Ri表示第i段视频的敏感度,th_Rv1为视频敏感帧比例阈值上限,th_Rv2为视频敏感帧比例阈值下限,th_mgR为视频分段平均敏感度阈值。