1.一种基于双softmax注意力的单流单阶段目标跟踪方法,其特征在于,所述方法包括如下步骤:步骤1、基于ViT模型,将ViT模型中的编码器替换为基于双softmax注意力的编码器,得到目标跟踪模型,并将模板和搜索区域的图像输入目标跟踪模型;
步骤2、对模板和搜索区域的图像进行预处理,并输入基于双softmax注意力的编码器;
步骤3、基于双softmax注意力的编码器在每个注意力头采用两个softmax注意力对输入的特征进行注意力计算,进而对模板图像及搜索区域图像进行统一特征学习,以在模板和搜索区域之间建立自由信息流,实现模板和搜索区域之间的相互指导,得到具有目标导向性的特征信息;
步骤4、采用迭代的方式重复步骤3若干次,以动态的对模板和搜索区域特征进行关系建模,得到具有目标导向性的特征;
步骤5、将具有目标导向性的特征送入预测头分别进行分类和回归操作,得到待跟踪目标的中心位置、边界框大小及位置偏差,并根据偏差来调整中心位置,再根据边界框尺寸大小确定最终的跟踪框,得到目标跟踪结果;
步骤6、利用大规模数据集重复步骤2至步骤4以对目标跟踪模型进行预训练,得到预训练的目标跟踪模型,利用预训练的目标跟踪模型进行目标跟踪,以获取准确的目标跟踪结果;
在所述步骤3中,基于双softmax注意力的编码器在每个注意力头采用两个softmax注意力对输入的特征进行注意力计算的方法具体包括如下步骤:首先对原始输入特征进行一个层归一化,以稳定每层的输入分布,加快模型的收敛速度,对应的过程存在如下关系式:其中,
将归一化输出送入双softmax注意力模块,以进行关系建模,获取具有长期依赖关系的特征,得到注意力输出;
将注意力输出进行层归一化操作,再送入一个多层感知机,以捕捉原始输入特征之间的复杂关系,增强模型的表达能力,再将多层感知机的输出与注意力输出进行残差连接,来缓解梯度消失问题,得到双softmax注意力的编码器的输出特征,对应的过程存在如下关系式:其中,
将归一化输出送入双softmax注意力模块,以进行关系建模,获取具有长期依赖关系的特征,得到注意力输出的方法具体包括如下步骤:对归一化输出进行线性投影得到计算注意力所需的查询向量,键向量,值向量,对应的过程存在如下关系式:其中,
对查询向量进行自适应平均池化,得到代理令牌,再进行双softmax注意力计算,获取中间特征,对应的过程存在如下关系式:其中,
为保留更多的原始低级特征信息,使用残差连接将注意力计算得到的中间特征与原始输入特征相加,得到注意力输出,对应的过程存在如下关系式:多头双softmax注意力计算的过程具体包括如下步骤:将代理令牌作为查询,与键向量和值向量进行softmax注意力计算,从所有值中聚合代理特征;
将代理特征作为第二个softmax注意力中的值矩阵,将代理令牌作为键矩阵,在查询向量,代理令牌,代理特征之间进行第二次softmax 注意力的计算,得到最终输出,得到单个注意力头的输出,再将多个注意力头输出拼接,得到中间特征,对应的过程存在如下关系式:其中,
2.根据权利要求1所述的基于双softmax注意力的单流单阶段目标跟踪方法,其特征在于,在所述步骤2中,对模板和搜索区域的图像进行预处理的方法具体包括如下步骤:将输入的模板和搜索区域的图像对分割成小块;
对模板和搜索区域的图像的小块进行位置编码;
将位置编码后的小块进行展平处理,形成序列化的图像块;
将模板和搜索区域的序列化的图像块进行拼接作为基于双softmax注意力的编码器的输入。
3.根据权利要求1所述的基于双softmax注意力的单流单阶段目标跟踪方法,其特征在于,还包括有特征多样性保留操作,特征多样性保留操作包括有深度可分离卷积和残差连接操作,针对每个注意力头,对值向量依次进行深度可分离卷积操作和残差连接操作后,再与对应的注意力头的双softmax注意力计算结果结合,以恢复特征多样性,对应的过程存在如下关系式:其中,
4.根据权利要求3所述的基于双softmax注意力的单流单阶段目标跟踪方法,其特征在于,还包括代理偏置,将代理偏置与双softmax注意力计算结合以更好的利用目标的位置信息,将代理偏置与双softmax注意力计算结合的方法具体包括如下步骤:给定三个可学习的偏置分量,三个偏置分量分别为列偏置、行偏置和块偏置;
对三个偏置分量分别依次进行初始化和双线性插值操作;
将双线性插值后的三个偏置分量相加,以获取代理偏置;
将双softmax注意力计算过程中的每个注意力头的softmax注意力操作加入代理偏置以进行结合,对应的过程存在如下关系式:其中,
5.一种基于双softmax注意力的单流单阶段目标跟踪系统,其特征在于,所述系统应用如权利要求1至4任意一项所述的基于双softmax注意力的单流单阶段目标跟踪方法,所述系统包括:构建模块,用于:
基于ViT模型,将ViT模型中的编码器替换为基于双softmax注意力的编码器,得到目标跟踪模型,并将模板和搜索区域的图像输入目标跟踪模型;
学习模块,用于:
基于双softmax注意力的编码器在每个注意力头采用两个softmax注意力对输入的特征进行注意力计算,进而对模板图像及搜索区域图像进行统一特征学习,以在模板和搜索区域之间建立自由信息流,实现模板和搜索区域之间的相互指导,得到具有目标导向性的特征信息;
提取模块,用于:
对模板和搜索区域的图像进行预处理,并输入基于双softmax注意力的编码器;
采用迭代重复学习模块的操作若干次,以动态的对模板和搜索区域特征进行关系建模,得到具有目标导向性的特征;
计算模块,用于:
将具有目标导向性的特征送入预测头分别进行分类和回归操作,得到待跟踪目标的中心位置、边界框大小及位置偏差,并根据偏差来调整中心位置,再根据边界框尺寸大小确定最终的跟踪框,得到目标跟踪结果;
预训练模块,用于:
利用大规模数据集对目标跟踪模型进行预训练,得到预训练的目标跟踪模型;
跟踪模块,用于:
利用预训练的目标跟踪模型进行目标跟踪,以获取准确的目标跟踪结果。