1.一种基于混合卷积与自注意力的聚合网络目标跟踪方法,其特征在于,所述方法包括如下步骤:步骤一,初始化操作;
对给定的第一帧图像以及后续帧图像中的搜索区域分别进行初始化,以分别生成目标模板图像与搜索图像,然后将所述目标模板图像以及所述搜索图像,分别通过卷积操作以得到对应的模板特征与搜索特征;
步骤二,聚合模块构建;
构建基于混合卷积与自注意力的聚合模块,通过卷积操作对所述模板特征以及所述搜索特征进行学习,并映射到相同的特征空间以分别获得模板特征的中间特征以及搜索特征的中间特征;
步骤三,混合卷积特征生成;
将模板分支的中间特征输入到由深度卷积与逐点卷积构成的混合卷积中,通过混合卷积对所述模板分支的中间特征进行处理,并通过级联操作得到模板分支的混合卷积特征;
将搜索分支的中间特征输入到由深度卷积与逐点卷积构成的混合卷积中,通过混合卷积对所述搜索分支的中间特征进行处理,并通过级联操作得到搜索分支的混合卷积特征;
步骤四,自注意力特征生成;
将所述模板分支的中间特征输入到自注意力中,所述自注意力对所述模板分支的中间特征进行映射得到三个特征图,分别作为模板分支的自注意力中的查询、键和值,由查询和键进行相似度匹配得到第一自注意力权重,第一自注意力权重与值进行计算获得全局特征,进而通过级联操作得到模板分支的自注意力特征;
将所述搜索分支的中间特征输入到自注意力中,所述自注意力对所述搜索分支的中间特征进行映射得到三个特征图,分别作为搜索分支的自注意力中的查询、键和值,由查询和键进行相似度匹配得到第二自注意力权重,第二自注意力权重与值进行计算获得全局特征,进而通过级联操作得到搜索分支的自注意力特征;
步骤五,混合卷积特征与自注意力特征连接;
将所述模板分支的混合卷积特征与所述模板分支的自注意力特征进行连接,经过一个随机失活层获得基于混合卷积与自注意力聚合模块的模板分支输出特征;
将所述搜索分支的混合卷积特征与所述搜索分支的自注意力特征进行连接,经过一个随机失活层获得基于混合卷积与自注意力聚合模块的搜索分支输出特征;
通过将所述基于混合卷积与自注意力聚合模块进行层次化堆叠,以构建一个权值共享的特征聚合网络;
步骤六,目标跟踪;
利用大规模数据集对所述特征聚合网络进行训练以得到跟踪模型,根据所述跟踪模型利用卷积操作融合模板分支输出特征和搜索分支输出特征,获得目标在搜索区域中的响应位置,以实现精准跟踪。
2.根据权利要求1所述的基于混合卷积与自注意力的聚合网络目标跟踪方法,其特征在于,在所述步骤二中,通过卷积操作对所述模板特征以及所述搜索特征进行学习的步骤中;
将卷积核大小为 的卷积分解为 个单独的 卷积,利用 卷积对作为输入特征的模板特征或搜索特征进行投影映射,对应的公式表示为:其中, 表示输入特征的中间特征张量, 表示输入特征 在像素坐标 的特征张量, 表示卷积核相关位置 的卷积核权重,表示像素水平坐标,表示像素垂直坐标。
3.根据权利要求2所述的基于混合卷积与自注意力的聚合网络目标跟踪方法,其特征在于,在所述步骤三中,通过混合卷积对模板分支或搜索分支的中间特征进行处理的步骤中,具体为:通过混合卷积对模板分支或搜索分支的中间特征进行深度卷积移位与求和操作;
其中,通过深度卷积移位与求和操作的输出特征张量表示为:
其中, 表示深度卷积移位与求和操作的输出特征张量, 表示移位计算,表示经过移位后的中间特征张量,表示求和计算, 表示水平位移值, 表示垂直位移值。
4.根据权利要求3所述的基于混合卷积与自注意力的聚合网络目标跟踪方法,其特征在于,在所述步骤三中,所述方法包括:使用逐点卷积混合信道位置,将混合卷积的输出特征张量与输入特征的中间特征张量输入到逐点卷积中,用于选择重要通道特征;
然后将所述混合卷积的输出特征张量进行级联后得到混合卷积特征。
5.根据权利要求4所述的基于混合卷积与自注意力的聚合网络目标跟踪方法,其特征在于,混合卷积的输出特征张量表示为:其中, 表示混合卷积的输出特征张量, 表示批标准化操作, 表示线性整流激活函数;
混合卷积特征表示为:
其中, 表示混合卷积特征, 表示级联操作, 表示第一个混合卷积的输出特征张量, 表示第 个混合卷积的输出特征张量。
6.根据权利要求5所述的基于混合卷积与自注意力的聚合网络目标跟踪方法,其特征在于,在所述步骤四中,将中间特征划分成 组,每组中包含通过 卷积获得的三个特征图,相应的三个特征图映射用作查询、键和值,对应的公式表示为:其中, 表示输入特征 中像素坐标 的查询特征映射张量, 表示输入特征 中像素坐标 的键特征映射张量, 表示输入特征 中像素坐标 的值特征映射张量,分别表示查询的投影矩阵, 表示键的投影矩阵, 表示值的投影矩阵, 表示输入特性的中间特征张量。
7.根据权利要求6所述的基于混合卷积与自注意力的聚合网络目标跟踪方法,其特征在于,在所述步骤四中,第一自注意力权重与第二自注意力权重的自注意力权重的计算通式表示为:其中, 表示自注意力权重, 表示归一化指数激活函数,表示
查询特征维度, 表示以像素坐标 为中心的空间范围 的像素的局部区域, 表示中间特征在像素坐标 的特征张量, 表示转置操作。
8.根据权利要求7所述的基于混合卷积与自注意力的聚合网络目标跟踪方法,其特征在于,将自注意力权重与值进行计算获得全局特征的方法包括如下步骤:将自注意力权重与值特征映射张量进行求和计算,以收集得到全局特征,对应的计算公式表示为:其中, 表示自注意力模块的输出特征张量,表示自注意力头输出的串联操作, 表示自注意力头的数量。
9.根据权利要求8所述的基于混合卷积与自注意力的聚合网络目标跟踪方法,其特征在于,在所述步骤五中,基于混合卷积与自注意力的聚合模块的输出特征表示为:其中, 表示基于混合卷积与自注意力的聚合模块的输出特征, 表示混合卷积特征, 表示自注意力特征,表示第一偏差因子,表示第二偏差因子。
10.一种基于混合卷积与自注意力的聚合网络目标跟踪系统,其特征在于,所述系统包括:初始化操作模块,用于;
对给定的第一帧图像以及后续帧图像中的搜索区域分别进行初始化,以分别生成目标模板图像与搜索图像,然后将所述目标模板图像以及所述搜索图像,分别通过卷积操作以得到对应的模板特征与搜索特征;
聚合模块构建模块,用于;
构建基于混合卷积与自注意力的聚合模块,通过卷积操作对所述模板特征以及所述搜索特征进行学习,并映射到相同的特征空间以分别获得模板特征的中间特征以及搜索特征的中间特征;
混合卷积特征生成模块,用于;
将模板分支的中间特征输入到由深度卷积与逐点卷积构成的混合卷积中,通过混合卷积对模板分支的中间特征进行处理,并通过级联操作得到模板分支的混合卷积特征;
将搜索分支的中间特征输入到由深度卷积与逐点卷积构成的混合卷积中,通过混合卷积对搜索分支的中间特征进行处理,并通过级联操作得到搜索分支的混合卷积特征;
自注意力特征生成模块,用于;
将所述模板分支的中间特征输入到自注意力中,所述自注意力对所述模板分支的中间特征进行映射得到三个特征图,分别作为模板分支的自注意力中的查询、键和值,由查询和键进行相似度匹配得到第一自注意力权重,第一自注意力权重与值进行计算获得全局特征,进而通过级联操作得到模板分支的自注意力特征;
将所述搜索分支的中间特征输入到自注意力中,所述自注意力对所述搜索分支的中间特征进行映射得到三个特征图,分别作为搜索分支的自注意力中的查询、键和值,由查询和键进行相似度匹配得到第二自注意力权重,第二自注意力权重与值进行计算获得全局特征,进而通过级联操作得到搜索分支的自注意力特征;
特征连接模块,用于;
将所述模板分支的混合卷积特征与所述模板分支的自注意力特征进行连接,经过一个随机失活层获得基于混合卷积与自注意力聚合模块的模板分支输出特征;
将所述搜索分支的混合卷积特征与所述搜索分支的自注意力特征进行连接,经过一个随机失活层获得基于混合卷积与自注意力聚合模块的搜索分支输出特征;
通过将所述基于混合卷积与自注意力聚合模块进行层次化堆叠,以构建一个权值共享的特征聚合网络;
目标跟踪模块,用于;
利用大规模数据集对所述特征聚合网络进行训练以得到跟踪模型,根据所述跟踪模型利用卷积操作融合模板分支输出特征和搜索分支输出特征,获得目标在搜索区域中的响应位置,以实现精准跟踪。