1.一种基于时空2D卷积神经网络的航拍视频分析方法,其特征在于,包括:实时获取航拍视频数据,对获取的航拍视频数据进行预处理;将预处理后的航拍视频数据输入到训练好的航拍视频识别模型中进行识别分析;对识别结果进行统计分析;所述航拍视频识别模型包括2D卷积神经网络、长时序特征提取模块LTFE、短期运动特征提取模块SMFE以及特征融合模块FFM,长时序特征提取模块LTFE、短期运动特征提取模块SMFE和特征融合模块FFM均设置在2D卷积神经网络中;
对航拍视频识别模型进行训练的过程包括:
S1:获取原始航拍数据集,对原始航拍数据集进行划分,得到训练集和测试集;对训练集中的数据进行预处理,生成T帧输入序列;
S2:将T帧输入序列输入到航拍视频识别模型中进行训练;
S3:将T帧输入序列输入到航拍视频识别模型的卷积层中进行局部特征提取,得到局部特征图;
S4:将局部特征图输入到各个Building block结构中,得到融合特征;
S41:采用一层1×1的2D卷积对局部特征图进行卷积处理,减少通道的维数,对局部特征图进行压缩;
S42:将压缩后的局部特征图输入到长时序特征提取模块LTFE中,提取局部特征图的长时序特征;具体过程包括:对局部特征图进行reshape操作,改变输入特征图的维度;在时间维度上对改变维度后的特征图进行通道级的1D卷积操作,提取长时序特征;对长时序特征进行reshape操作,将特征图重塑为原始维度,并通过一层3×3的2D卷积对局部空间信息进行建模;将输入特征以及建模后的特征图通过残差连接的方式进行相加,提取长时序信息的同时保留原始空间信息,得到局部特征图的长时序特征;
S43:将压缩后的局部特征图输入到短期运动特征提取模块SMFE中,提取局部特征图的短期运动特征;其具体的过程包括:对局部特征图进行一层1×1的2D卷积操作,降低通道数;对降低通道数后的局部特征图进行时序分割操作,并计算分割后所得相邻特征图之间的差异;提取相邻特征图之间的运动特征,对所有的运动特征通过Concate操作进行合并,构建运动矩阵;将运动矩阵输入到全局平均池化层,得到空间信息;采用一层2D卷积将特征图通道扩展为原始通道尺寸,同时利用Sigmoid函数得到运动注意权重值;对运动注意权重值和局部特征图进行通道级乘积,并将乘积结果与局部特征图输入到残差连接,得到与运动特征信息相关的通道并保留整体的空间背景信息;
S44:将长时序特征和短期运动特征输入到特征融合模块FFM中,得到融合特征;融合过程包括:利用两次仿射变换将长时序特征从单模态映射到多模态中;采用元素级求和、通道级乘积和残差连接的方式对多模态长时序特征和短期运动特征的相关关系进行融合,得到融合特征;得到融合特征的表达式为:* o * o
F=(η1(A)⊙M+η2(A))+M
* o
其中A表示长时序特征,M表示短期运动特征,η表示仿射变换,⊙表示通道级乘积;
S5:将所有的融合特征输入到全连接层和平均池化层,得到每一帧图像的分类向量;
S6:采用Softmax函数对分类向量进行归一化处理,得到分类结果;
S7:根据分类结果计算模型的损失函数,不断调整模型的参数,当损失函数最小时完成模型的训练,得到训练好的航拍视频识别模型。
2.根据权利要求1所述的一种基于时空2D卷积神经网络的航拍视频分析方法,其特征在于,对航拍视频数据进行预处理包括:将实时获取的每个航拍视频数据分为等长的T个片段,从每个片段中随机抽取一帧数据形成T帧输入序列。
3.根据权利要求1所述的一种基于时空2D卷积神经网络的航拍视频分析方法,其特征在于,航拍视频识别模型中的2D卷积神经网络为Resnet‑50卷积神经网络,该网络包括一个卷积层、十六个Building block结构、一个全连接层以及一个平均池化层;将长时序特征提取模块LTFE和短期运动特征提取模块SMFE并联插入到每个Building block结构的残差块中,并利用特征融合模块FFM来融合长时序特征和短期运动特征,构成航拍视频识别模型。
4.根据权利要求1所述的一种基于时空2D卷积神经网络的航拍视频分析方法,其特征在于,分类结果的表达式为:其中,Softmax表示归一化指数函数,Vc表示每一帧分类向量对应的第c个类别的输出,Cls表示事件类别数,j表示第j类事件。
5.根据权利要求1所述的一种基于时空2D卷积神经网络的航拍视频分析方法,其特征在于,模型的损失函数为交叉熵损失函数,其表达式为:其中,θ表示网络参数,M表示输入的数据,N表示批大小,Cls表示事件类别数, 表示示性函数, 表示经过Softmax函数后得到的预测结果。