1.一种基于时序特征共享结构的视频目标检测方法,其特征在于,包括如下步骤:
1)在神经网络中加入时序特征共享网络结构,建立时序特征共享神经网络;
所述步骤1)具体过程如下:
1.1)时序特征共享人工神经网络是以YOLOV3为基础进行改进的视频目标检测网络,其基础网络结构为darkNet‑53,则网络输出的时序特征集合FM={fij|i=1,2,3,…nframe,j=
1,2,3,…,nlayer},其中fij表示在第i帧图像输入网络后在网络中第j层生成的网络特征,nframe表示视频图像的总帧数,nlayer表示网络的层数;在网络的第76层、83层和96层之后分别加入时序特征共享网络结构,该结构的输入为特征fij和fkj,其中fij和fkj分别表示第i帧图像和第k帧图像输入网络后在第j层的特征输出,且满足式(1):
1.2)其后将输入特征通过通道维度拼接操作将两部分特征叠加在一起,输入到下一层网络之中,并将特征fij输入到下一帧的目标检测计算中;在网络的最后,YOLO层对第i帧图像中的目标位置、目标类别和置信度进行输出;
2)在网络训练时通过相邻帧共享的时序神经网络训练方法,实现端到端的神经网络训练;
所述步骤2)具体过程如下:
步骤2.1):从数据集中随机两两读取nbatch组连续视频图像和对应标签作为训练样本S={sp|p=1,2,3,…,nbatch,sp=(Iq,I(q+1),Lq,L(q+1)),q=1,2,3,…,nframe‑1},Iq和I(q+1)分别表示第q帧和第q+1帧的视频图像,Lq和L(q+1)分别表示第q帧和第q+1帧对应的标签,nbatch表示样本组数,nframe表示视频图像的总帧数;
步骤2.2):将训练样本S中每组样本sp进行随机翻转、随机仿射变换、随机亮度和对比度变化的数据增广,每组样本sp中的图像和标签其数据增广方式相同,得增广后的训练样本S′;
步骤2.3):将增广后的训练样本S′组成一个批次,输入到时序特征共享神经网络之中进行前向传播,得到图像在76层、83层和96层生成的特征图FM={Fp|p=1,2,3,…,nbatch},Fp=(fq,f(q+1)),其中fq和f(q+1)分别为图像Iq和I(q+1)生成的特征图,fq={fql|l=76,83,
96},其中fql表示图像Iq在第l层网络输出的特征图;
步骤2.4):将特征fq和f(q+1)分别作为彼此的共享时序特征,将特征fq和f(q+1)进行通道维度拼接操作后输入到网络中继续进行前向传播,得到第q帧图像的目标检测结果;并将特征f(q+1)和fq进行通道维度拼接操作后,输入到网络中继续进行前向传播,得到第(q+1)帧图像的目标检测结果;
步骤2.5):根据YOLOV3的损失函数,计算前向传播的误差值,再根据误差进行反向传播;
步骤2.6):重复步骤2.1到2.5,直至完成iter次迭代:
其中epoch为事先给定的训练轮数;
3)利用已训练完成的时序特征共享网络实现准确快速的视频目标检测。
2.根据权利要求1所述一种基于时序特征共享结构的视频目标检测方法,其特征在于,所述步骤3)具体过程如下:
3.1)读取已训练好的网络权重文件和网络配置文件,得神经网络N;
3.2)读入视频V={Ii|i=1,2,3,…,nv},Ii表示视频中第i帧图像,nv表示视频V的总帧数;
3.3)将图像Ii依次输入神经网络N进行前向传播,得图像在76层、83层和96层生成的特征图FM={fij|j=76,83,96},其中fij表示图像Ii在第j层生成的特征图;
若i=1,则将特征fij复制一份为cfij,再将fij与cfij进行通道维度拼接操作,再将合并结果输入到网络中继续进行前向传播;反之,将特征fij与特征f(i‑1)j进行通道维度拼接操作,再将合并结果输入到网络中继续进行前向传播;
3.4)输出网络结果,得视频目标检测结果R。