1.一种基于卷积自注意力模块的孪生网络目标跟踪方法,其特征在于,所述方法包括如下步骤:
步骤一:在孪生网络框架下,基于卷积神经网络模型以及多头自注意力模块,构建得到特征融合网络模型;其中,所述特征融合网络模型用于分别提取模板分支上的目标图像特征以及搜索分支上的搜索区域目标图像特征,所述特征融合网络模型的第一层与第二层采用的是所述卷积神经网络模型中的深度残差网络,所述特征融合网络模型的第三层采用的是所述多头自注意力模块;
步骤二:通过所述特征融合网络模型中的所述卷积神经网络模型,对所述模板分支上的目标图像特征以及所述搜索区域目标图像特征中的局部区域进行学习,以分别得到对应的局部语义信息,然后通过所述多头自注意力模块对各所述局部语义信息进行聚合以得到全局上下文相关信息;
步骤三:利用大规模数据集,对所述特征融合网络模型进行预训练,并对所述特征融合网络模型中的参数进行调整;
步骤四:利用经预训练后的所述特征融合网络模型,在所述模板分支中提取所述目标图像特征,以及在所述搜索分支中提取所述搜索区域目标图像特征,并将提取后的所述目标图像特征以及所述搜索区域目标图像特征引入到带有锚点的区域建议网络的分类分支与回归分支中;
步骤五:利用区域建议网络分别对提取后的所述目标图像特征以及所述搜索区域目标图像特征在分类分支和回归分支上分别进行深度互相关卷积计算,以得到对应的相似度得分,其中所述深度互相关卷积计算表示在分类分支与回归分支上分别进行卷积;
步骤六:利用在分类分支和回归分支上获取到的最大相似度得分的目标候选块进行目标跟踪;
其中,所述多头自注意力模块的运算方法具体包括如下步骤:在模板分支与搜索分支上分别应用具有1×1核卷积层的嵌入矩阵 进行变换,以分别生成查询 ,键 和值 ;
其中, 的尺寸大小为 , 表示减少的信道数, 分别为所输入的三个不同的嵌入矩阵;
通过查询 与键 构建得到局部关系矩阵 ,局部关系矩阵 的计算公式为:其中, , 表示多头自注意力模块的头数, 表示目标图像特征和搜索区域目标图像特征输入的2D特征图上相对位置区域的高度和宽度的大小,为局部矩阵乘法;
根据引入的相对位置编码对所述局部关系矩阵 进行增强以得到增强的局部关系矩阵 ,所述增强的局部关系矩阵 的计算公式为:其中,为所述相对位置编码,相对位置编码 的大小为 , 表示逐元素求和;
根据增强的局部关系矩阵 ,通过softmax运算以得到相似局部相对矩阵 ,并将所述相似局部相对矩阵 以及多个值 聚合起来,通过局部矩阵乘法计算得到聚合后的特征图 ,对应的计算公式为;
根据聚合后的特征图 计算得到多头自注意力模块;其中,所述多头自注意力模块的运算方法表示为:
其中, , , , 均为参数矩阵,的默认参数为32, 表示头数与通道数, 表示所述多头自注意力模块的输出结果, 表示聚合 个头所输出的特征图Y的结果,表示所有头串联聚合后的特征图, 表示最终输出的所有头串联聚合后的特征图的结果。
2.根据权利要求1所述的基于卷积自注意力模块的孪生网络目标跟踪方法,其特征在于,在所述步骤五中,对提取后的所述目标图像特征以及所述搜索区域目标图像特征在分类分支和回归分支上分别进行深度互相关卷积计算,以得到对应的相似度得分的步骤中,相似度得分的公式表述为:
其中, 表示提取后的所述目标图像特征与所述搜索区域目标图像特征在分类分支上进行深度互相关卷积计算的相似度得分值; 表示提取后的所述目标图像特征与所述搜索区域目标图像特征在回归分支上进行深度互相关卷积计算的相似度得分值,k表示锚点数,2k与4k分别表示对应k个锚点的输出特征图的通道数, 表示值的偏差, 表示实数集, 、 、 以及 表示特征融合网络模型提取模板分支上的目标图像特征与搜索分支上的搜索区域目标图像特征后的输出特性,分别表示模板分支以及搜索分支上输入的目标图像以及搜索区域目标图像。
3.根据权利要求2所述的基于卷积自注意力模块的孪生网络目标跟踪方法,其特征在于, 为一个2k通道向量,在分类分支中,输出特征图有2k个通道,2k通道包括pos与neg,pos与neg分别表示提取后的所述目标图像特征与所述搜索区域目标图像特征上相应位置的每个锚点的正候选块以及负候选块; 为一个4k通道向量,在回归分支中,输出特征图有 4k 个通道,4k通道包括dx、dy、dw以及dh,dx、dy、dw以及dh分别表示提取后的所述目标图像特征与所述搜索区域目标图像特征上相应位置的每个锚点的中心点的横坐标、纵坐标、锚点的宽以及锚点的高分别与地面之间的距离。
4.根据权利要求2所述的基于卷积自注意力模块的孪生网络目标跟踪方法,其特征在于,模板分支上的所述目标图像特征以及搜索分支上的搜索区域目标图像特征输入的2D特征映射为 , 分别表示通道数、高度和宽度, 表示实数;
在所述步骤一中,所述多头自注意力模块的生成方法包括如下步骤:在所述模板分支与所述搜索分支上分别应用卷积层的嵌入矩阵进行变换,以分别生成查询、键以及值;
通过所述查询以及所述键构建得到局部关系矩阵;
根据引入的相对位置编码对所述局部关系矩阵进行增强以得到增强的局部关系矩阵;
根据所述增强的局部关系矩阵,通过softmax运算以得到相似局部相对矩阵,并将所述相似局部相对矩阵以及多个值聚合起来,通过局部矩阵乘法计算得到聚合后的特征图;
根据所述聚合后的特征图计算得到所述多头自注意力模块。
5.一种基于卷积自注意力模块的孪生网络目标跟踪系统,其特征在于,所述系统包括:构建模块,所述构建模块用于在孪生网络框架下,基于卷积神经网络模型以及多头自注意力模块,构建得到特征融合网络模型;其中,所述特征融合网络模型用于分别提取模板分支上的目标图像特征以及搜索分支上的搜索区域目标图像特征,所述特征融合网络模型的第一层与第二层采用的是所述卷积神经网络模型中的深度残差网络,所述特征融合网络模型的第三层采用的是所述多头自注意力模块;
学习模块,用于通过所述特征融合网络模型中的所述卷积神经网络模型,对所述模板分支上的目标图像特征以及所述搜索区域目标图像特征中的局部区域进行学习,以分别得到对应的局部语义信息,然后通过所述多头自注意力模块对各所述局部语义信息进行聚合以得到全局上下文相关信息;
预训练模块,用于利用大规模数据集,对所述特征融合网络模型进行预训练,并对所述特征融合网络模型中的参数进行调整;
提取模块,用于利用经预训练后的所述特征融合网络模型,在所述模板分支中提取所述目标图像特征,以及在所述搜索分支中提取所述搜索区域目标图像特征,并将提取后的所述目标图像特征以及所述搜索区域目标图像特征引入到带有锚点的区域建议网络的分类分支与回归分支中;
计算模块,用于利用区域建议网络分别对提取后的所述目标图像特征以及所述搜索区域目标图像特征在分类分支和回归分支上分别进行深度互相关卷积计算,以得到对应的相似度得分,其中所述深度互相关卷积计算表示在分类分支与回归分支上分别进行卷积;
跟踪模块,用于利用在分类分支和回归分支上获取到的最大相似度得分的目标候选块进行目标跟踪;
其中,所述多头自注意力模块的运算方法具体包括如下步骤:在模板分支与搜索分支上分别应用具有1×1核卷积层的嵌入矩阵 进行变换,以分别生成查询 ,键 和值 ;
其中, 的尺寸大小为 , 表示减少的信道数, 分别为所输入的三个不同的嵌入矩阵;
通过查询 与键 构建得到局部关系矩阵 ,局部关系矩阵 的计算公式为:其中, , 表示多头自注意力模块的头数, 表示目标图像特征和搜索区域目标图像特征输入的2D特征图上相对位置区域的高度和宽度的大小,为局部矩阵乘法;
根据引入的相对位置编码对所述局部关系矩阵 进行增强以得到增强的局部关系矩阵 ,所述增强的局部关系矩阵 的计算公式为:其中,为所述相对位置编码,相对位置编码 的大小为 , 表示逐元素求和;
根据增强的局部关系矩阵 ,通过softmax运算以得到相似局部相对矩阵 ,并将所述相似局部相对矩阵 以及多个值 聚合起来,通过局部矩阵乘法计算得到聚合后的特征图 ,对应的计算公式为;
根据聚合后的特征图 计算得到多头自注意力模块;其中,所述多头自注意力模块的运算方法表示为:
其中, , , , 均为参数矩阵,的默认参数为32, 表示头数与通道数, 表示所述多头自注意力模块的输出结果, 表示聚合 个头所输出的特征图Y的结果,表示所有头串联聚合后的特征图, 表示最终输出的所有头串联聚合后的特征图的结果。
6.根据权利要求5所述的基于卷积自注意力模块的孪生网络目标跟踪系统,其特征在于,所述计算模块用于:
对提取后的所述目标图像特征以及所述搜索区域目标图像特征在分类分支和回归分支上分别进行深度互相关卷积计算以得到对应的相似度得分;
其中,所述相似度得分的公式表述为:其中, 表示提取后的所述目标图像特征与所述搜索区域目标图像特征在分类分支上进行深度互相关卷积计算的相似度得分值; 表示提取后的所述目标图像特征与所述搜索区域目标图像特征在回归分支上进行深度互相关卷积计算的相似度得分值,k表示锚点数,2k与4k分别表示对应k个锚点的输出特征图的通道数, 表示值的偏差, 表示实数集, 、 、 以及 表示特征融合网络模型提取模板分支上的目标图像特征与搜索分支上的搜索区域目标图像特征后的输出特性,分别表示模板分支以及搜索分支上输入的目标图像以及搜索区域目标图像。
7.根据权利要求6所述的基于卷积自注意力模块的孪生网络目标跟踪系统,其特征在于, 为一个2k通道向量,在分类分支中,输出特征图有2k个通道,2k通道包括pos与neg,pos与neg分别表示提取后的所述目标图像特征与所述搜索区域目标图像特征上相应位置的每个锚点的正候选块以及负候选块; 为一个4k通道向量,在回归分支中,输出特征图有 4k 个通道,4k通道包括dx、dy、dw以及dh,dx、dy、dw以及dh分别表示提取后的所述目标图像特征与所述搜索区域目标图像特征上相应位置的每个锚点的中心点的横坐标、纵坐标、锚点的宽以及锚点的高分别与地面之间的距离。