1.一种基于时空双分支网络特征融合的交通视频显著性预测方法,其特征在于,包括如下步骤:S1:获取待预测交通视频数据,在时间分支网络选择连续的视频序列,在空间分支网络选择单帧视频图像,分别输入到训练好的交通视频显著性预测网络中;
S2:采用编码器对视频序列进行初步编码后,经过显著性注意力传输机制引导连续帧时序建模,以增强帧间显著性依赖关系;该机制由显著性注意力传输模块实现,该模块包含时空注意力引导融合子模块和用于时序建模的ConvGRU子模块;
时空注意力引导融合子模块首先通过计算输入特征X在时间维度上的全局信息,经全连接层生成注意力权重,来增强模型对时间序列数据中重要时间片段的关注度,再经过与历史隐藏状态Ht-1相乘得到调整后的隐藏状态;然后,将和X在通道维度上进行拼接,通过卷积、tanh函数和卷积进行初步融合生成注意力图At,其计算公式如下:,
,
接下来,通过算子计算归一化空间注意力图,其计算公式为:
,
其中表示位置的注意力图元素,表示以自然常数e为底的函数;最后,将空间注意力图与输入X相乘,得到调整后的特征,具体公式如下:,
利用ConvGRU捕获连续帧的显著性依赖关系,该模块计算公式如下:,
其中,表示更新门,表示重置门,表示新的记忆单元,既是用于当前帧显著性区域预测增强后的特征,又是传入下一帧的隐藏状态,,和表示卷积权重;
将连续的视频序列经过多层循环计算得到进一步增强的特征,然后经过反卷积解码器进行解码操作,使其恢复至输入视频帧尺寸,最后执行sigmoid操作获得时间分支网络的时间显著图;
S3:将单帧视频图像经过多分辨率特征聚合模块捕捉不同感受野的显著信息,以增强细节特征表达能力;该模块包含联合采样先验块和逐层关联聚合块;
联合采样先验块用于获得不同分辨率的空间信息,增强显著性特征的表达能力;该块构建四组不同通道的特征组,每组有四层不同分辨率的特征图,每组计算以3×3的CBR操作为起始,即Conv+BN+ReLU, 沿着自下而上的路径进行步长为2的下采样或者沿着自上而下的路径进行尺度因子为2的上采样,然后对同一层的特征图进行拼接,获得四叠不同分辨率的融合特征,其中包括粗略的语义和精细的细节;其表达公式如下:,
其中,表示原始输入特征图,表示第组第层的特征图,,表示3×3的卷积、批量归一化和修正线性单元的组合操作;
逐层关联聚合块用于聚合不同感受野的显著性特征,进一步捕捉丰富的图像特征;该块首先在各层融合特征图上执行1×1的CBR操作得到,然后高层的融合特征经过上采样后与相邻低层融合特征进行相加求和得到;这一操作从第四层到第一层依次进行,建立自上而下的关联路径,逐层聚合不同感受野的显著信息,在增强细节信息的同时,使得最后的聚合特征与原始输入具有相同的分辨率;最后,对聚合特征执行sigmoid操作,获得最后的空间显著图;其具体公式如下:,
其中,为sigmoid函数操作,表示1×1的卷积、批量归一化和修正线性单元的组合操作,为空间分支网络输出得到的空间显著图;
S4:采用串联和卷积的方式将时间特征和空间特征进行融合解码,计算最终的交通视频显著图,得到预测结果。
2.如权利要求1所述的基于时空双分支网络特征融合的交通视频显著性预测方法,其特征在于,所述训练好的交通视频显著性预测网络的训练步骤包括:收集并预处理训练数据,分为输入视频帧序列和标签真值显著图;
构建交通视频显著性预测网络,设置权重初始值;
将训练集输入到预测网络中,对网络进行训练,输出预测显著图;
用损失函数计算预测显著图和真值显著图的差异并反向传播;
多次迭代训练,当损失函数收敛时,保存最佳参数和结构,得到训练好的交通视频显著性预测网络。
3.如权利要求1所述的基于时空双分支网络特征融合的交通视频显著性预测方法,其特征在于,所述采用编码器对视频序列进行初步编码:编码器遵循卷积网络的典型架构,由5个卷积块和3个2×2的最大池化操作构成,每个卷积块包括两个3 x 3卷积,两个批量归一化和两个修正线性单元。
4.如权利要求1所述的基于时空双分支网络特征融合的交通视频显著性预测方法,其特征在于,所述将时间特征和空间特征进行融合解码,首先在通道维度上对时间显著图和空间显著图进行拼接,然后对拼接特征依次执行三个3×3的CBR操作和一个1×1的CBR操作,特征图的尺寸保持不变,最后通过sigmoid函数得到最终预测的视频显著图。
5.一种基于时空双分支网络特征融合的交通视频显著性预测系统,该系统用于实现权利要求1所述的基于时空双分支网络特征融合的交通视频显著性预测方法,其特征在于,包括:时空数据输入模块,获取待预测的交通视频数据,在时间分支网络选择连续的视频序列,在空间分支网络选择单帧视频图像分别输入到交通视频显著性预测网络中;
时间特征提取模块,采用编码器对输入的视频序列进行初步编码后,经过显著性注意力传输机制捕捉视频帧前后依赖关系,然后反卷积解码器进行解码操作,提取显著性时间特征,得到时间显著图;
空间特征提取模块,将输入的单帧图像经过联合采样和逐层关联的多分辨率特征聚合模块来获取不同感受野的显著信息,提取显著性空间特征,得到空间显著图;
融合解码模块,采用串联和卷积的方式将时间特征和空间特征进行融合解码,计算最终交通视频显著图,得到预测结果。
6.一种电子设备,其特征在于,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成权利要求1-4任一项所述的方法。
7.一种计算机可读存储介质,其特征在于,用于存储计算机指令,所述计算机指令被处理器执行时,完成权利要求1-4任一项所述的方法。