1.基于时空信息融合的目标跟踪方法,其特征在于,具体步骤如下:步骤1,选取经典跟踪方法MDNet作为基跟踪器,其中MDNet选用训练好的VGG-M作为特征提取网络;选取训练好LSTM网络作为目标位置预测器;
步骤2,对于待跟踪视频,将第一帧的目标状态输入到特征提取网络中得到第一帧目标的深度特征,并且利用第一帧的目标状态初始化基跟踪器参数;
步骤3,进入后续帧,获取上一帧的目标位置和目标宽高构成上一帧的目标状态并输入基跟踪器进行跟踪,得到基于目标外观特征的跟踪结果;
步骤4,采用步骤3方法获取的前L帧的目标状态集合输入目标位置预测器LSTM中,得到基于目标时序信息的预测结果;
步骤5,分别将基于目标外观特征的跟踪结果和基于目标时序信息的预测结果输入到特征提取网络中,得到对应的深度特征和;
步骤6,分别计算深度特征和与第一帧目标状态的深度特征的余弦相似度,并判断选取其一作为最终的跟踪结果。
2.如权利要求1所述的基于时空信息融合的目标跟踪方法,其特征在于,所述步骤1中VGG-M的网络包括依次连接的由3个卷积层和3个全连接层组成,其中第一个卷积层和第二个卷积层后分别连接一个池化层,其中每个卷积层后面都添加随机失活层和RELU非线性激活函数。
3.如权利要求1所述的基于时空信息融合的目标跟踪方法,其特征在于,所述MDNet将目标跟踪定义为目标和背景的二分类问题,利用VGG-M图像深度特征,最终输出图像被判别为目标和背景的概率。
4.如权利要求1所述的基于时空信息融合的目标跟踪方法,其特征在于,所述LSTM网络和VGG-M均采用ILSVRC2015数据集进行训练。
5.如权利要求1所述的基于时空信息融合的目标跟踪方法,其特征在于,所述步骤6具体的为:步骤6.1,分别计算深度特征和与第一帧目标状态的深度特征的余弦相似度,公式为:(1)
其中表示当前帧基于目标外观特征的跟踪结果的深度特征和第一帧目标深度特征余弦相似度;
(2)
其中表示当前帧基于目标时序信息的预测结果的深度特征和第一帧目标深度特征余弦相似度;
步骤6.2,通过两个相似度大小决策输出哪种情况下的跟踪结果,公式为:(3)
其中就是最终的跟踪结果;
步骤6.3,将当前帧的跟踪结果输入步骤3中,将下一帧作为当前帧并进行下一帧的图像跟踪直至视频中的图像帧都跟踪完毕。