1.一种基于Transformer的时空上下文目标跟踪方法,其特征是包括如下步骤:
S1、图像的获取及预处理:获取跟踪目标图像并进行预处理;
S2、主干网络提取特征:将步骤S1中经过预处理的图像输入至主干网络Vision
Transformer中,先进行展平与线性映射操作,后与位置编码对应相加得到切片嵌入层,再通过Transformer编码器分别得到搜索区域特征、初始模板特征与动态更新模板特征;
S3、特征增强及融合:将步骤S2中的输出作为交互式特征增强模块的输入,所述的交互式特征增强模块采用多头交叉自注意力机制使得搜索区域特征对初始模板特征与动态模板特征的融合特征进行查询,得到混合特征;
S4、边界框预测:将步骤S3得到的混合特征与一个目标查询作为Transformer解码器的输入,其中把Transformer解码器中的掩码自注意力机制部分采用多头自注意力机制层,从而自适应的聚焦于有用的上下文信息;得到Transformer解码器的输出后,计算该输出与混合特征向量两者的嵌入之间的相似性并进行特征重塑,最后计算角点概率分布的期望得到边界预测框;
S5、得分头部预测:将步骤S4中Transformer解码器得到的输出作为得分头部的输入,得分头部由全连接层FFN与softmax激活函数组成,最后通过设置的阈值判别是否进行模板更新。
2.如权利要求1所述的一种基于Transformer的时空上下文目标跟踪方法,其特征是,步骤S1中,采用GOT-10K数据集,输入部分由搜索区域、初始模板以及动态更新模板组成;所述的预处理为将图像分割成切片。
3.如权利要求2所述的一种基于Transformer的时空上下文目标跟踪方法,其特征是,步骤S1中,搜索区域的图片大小R为区域、C为通道数、Hx是图片的长度、Wx是图片的宽度,初始模板帧以及动态更新模板帧为并且搜索区域是从目标在前一帧中心坐标处向四个方向扩展了目标大小的数倍,包含目标可能的移动范围;先对搜索区域进行预处理,将一帧图片分解成数量为的切片,将每个切片作为一个令牌输入主干网络,每一个切片的大小为n×n×C;初始模板区域与动态更新模板区域则分解成数量为的切片,每一个切片的大小为n×n×C。
4.如权利要求2或3所述的一种基于Transformer的时空上下文目标跟踪方法,其特征是,步骤S2中,先将每个切片展平,线性映射成一个维度为n×n×C的向量,后将生成的位置编码与切片对应位置相加得到切片嵌入层,再将得到的切片嵌入层输入至Transformer编码器中。
5.如权利要求4所述的一种基于Transformer的时空上下文目标跟踪方法,其特征是,步骤S2中,Transformer编码器先通过一个层归一化,进入到多头自注意力层,再经过一个残差网络结构,最后再次进行归一化处理与一个多层感知机,得到编码器部分的输出,即提取到图片的特征向量。
6.如权利要求1-3任一项所述的一种基于Transformer的时空上下文目标跟踪方法,其特征是,步骤S3中,将主干网络中得到的搜索区域特征X1作为查询,把初始模板特征与动态更新模板特征进行级联得到的融合特征X2作为键值对一起输入到交互式特征增强模块。
7.如权利要求6所述的一种基于Transformer的时空上下文目标跟踪方法,其特征是,步骤S3中,所述的交互式特征增强模块采用多头交叉注意力机制,其中,给定查询Q、键K和值V,注意力函数采用缩放点积,公式如下:其中,Q=X1×WQ,K=X2×WK,V=X2×WV,WQ、WK、WV均为训练数据得到的参数矩阵,用于提取特征,X1为搜索区域特征,X2为初始模板特征与动态更新模板特征进行级联得到的融合特征,KT为键K的转置矩阵,dk为矩阵K的维度;多头注意力机制因为特征的相关性不止一种,设置为数层,由数个单头的结果级联,再与矩阵WO相乘,公式如下:MultiHead(Q,K,V)=Concat(H1,....,Hn)WO
其中,矩阵WO为可学习的参数矩阵,Hn为第n个多头层,在将多个单头输出的向量矩阵Hi级联后,通过WO对数个向量矩阵提取特征,其中Hi为每个单头输出的结果,公式如下:Hi=Attention(X1WiQ,X2WiK,X2WiV)
其中,WiQ、WiK、WiV均为训练数据得到的第i层参数矩阵,对查询Q与键K进行空间位置编码对应相加,再输入多头交叉注意力机制,并通过归一化处理与残差连接,公式如下:其中,Pq对应查询Q部分的空间位置编码,Pk对应键K部分的空间位置编码;
再进行一次归一化处理与残差连接,得到最终的输出混合特征,公式如下:
8.如权利要求1-3任一项所述的一种基于Transformer的时空上下文目标跟踪方法,其特征是,步骤S4中,得到Transformer解码器的输出后,计算其与混合特征向量两者的嵌入之间的相似性,把得到的相似性分数与混合特征逐元素相乘,以增强重要区域并减弱不太具有区分性的区域;新的特征序列被重塑为一个特征图;再通过全卷积网络输出两个角点概率Ptl(x,y)和Pbr(x,y),其中x和y为坐标点,Ptl(x,y)为左上角点概率分布,Pbr(x,y)右下角点概率分布;其中,全卷积网络结构是由L个堆叠的卷积层、批归一化层以及ReLU函数组成;最后计算角点的概率分布的期望得到预测框坐标,公式如下:对坐标估计中的不确定性进行建模,为目标跟踪生成更加准确和更鲁棒的预测结果,得到预测框后,选用损失函数L1 loss和IOU loss联合辅助网络模型进行边界框预测,公式如下:其中,bi和分别是边界框标签与预测边界框,λ是两个损失函数之间的权重超参数,调节两者之间的相对重要性。
9.如权利要求1-3任一项所述的一种基于Transformer的时空上下文目标跟踪方法,其特征是,步骤S5中,阈值设为0.7,将得分头部的输出置信度分数与阈值进行比较,当得分大于0.7,则更新模板,否则不更新;新的模板通过从搜索区域图像中裁剪出来,然后输入至主干网络进行特征提取;在对得分头部进行优化时采用二元交叉熵损失函数,公式如下:Lcls=yi log(Pi)+(1-yi)log(1-Pi)
其中,yi代表二元标签中0或者1,Pi是属于yi标签的概率;当Pi的值越接近1,则损失函数的值越接近0,反之,预测值Pi趋近于0损失函数越大。
10.一种基于Transformer的时空上下文目标跟踪系统,其基于权利要求1-9任一项所述的方法,其特征是包括如下模块:图像获取及预处理模块:获取跟踪目标图像并进行预处理;
主干网络提取特征模块:将经过图像获取及预处理模块预处理的图像输入至主干网络Vision Transformer中,先进行展平与线性映射操作,后与位置编码对应相加得到切片嵌入层,再通过Transformer编码器分别得到搜索区域特征、初始模板特征与动态更新模板特征;
特征增强及融合模块:将主干网络提取特征模块的输出作为交互式特征增强模块的输入,所述的交互式特征增强模块采用多头交叉自注意力机制使得搜索区域特征对初始模板特征与动态模板特征的融合特征进行查询,得到混合特征;
边界框预测模块:将特征增强及融合模块得到的混合特征与一个目标查询作为Transformer解码器的输入,其中把Transformer解码器中的掩码自注意力机制部分采用多头自注意力机制层,从而自适应的聚焦于有用的上下文信息;得到Transformer解码器的输出后,计算该输出与混合特征向量两者的嵌入之间的相似性并进行特征重塑,最后计算角点概率分布的期望得到边界预测框;
得分头部预测模块:将边界框预测模块中Transformer解码器得到的输出作为得分头部的输入,得分头部由全连接层FFN与softmax激活函数组成,最后通过设置的阈值判别是否进行模板更新。