1.一种基于卷积和注意力相结合特征提取的目标跟踪方法,其特征在于,包括:
对给定的第一帧图像以及每一后续帧图像中的搜索区域分别进行初始化,得到所述第一帧图像对应的目标模板图像和每一所述后续帧图像对应的搜索图像;
构建特征提取网络;所述特征提取网络包括两个结构相同的特征提取子网络;两个所述特征提取子网络分别用于对所述目标模板图像和搜索图像进行特征提取;所述特征提取子网络包括卷积模块、依次串联连接的多个分层特征模块和第一完全连接层;多个所述分层特征模块依次记为第一分层特征模块,第二分层特征模块,...,第M分层特征模块;所述卷积模块的输入为所述第一帧图像或每一所述后续帧图像,所述卷积模块的输出为所述第一分层特征模块的输入,所述第M分层特征模块的输出为所述第一完全连接层的输入,所述第一完全连接层的输出为所述特征提取网络提取出的特征;每一所述分层特征模块包括层归一化分支、全局分支、局部分支和融合分支;所述层归一化分支的输入为所述卷积模块的输出;所述层归一化分支的输出分别为所述全局分支的输入和所述局部分支的输入;所述全局分支用于采用自注意力操作提取全局信息;所述局部分支用于采用注意力和卷积相结合的操作提取局部信息;所述融合分支用于对全局分支输出的所述全局信息和所述局部分支输出的所述局部信息进行融合;
将所述目标模板图像和每一所述搜索图像分别应用各自的所述特征提取子网络进行特征提取,得出目标模板图像提取特征和搜索图像提取特征;
将所述目标模板图像提取特征输入至跟踪模型,并对每一所述搜索图像提取特征分别与所述跟踪模型输出的结果进行卷积操作,获得每一所述后续帧图像中搜索区域的目标响应位置;
其中,将所述目标模板图像和每一所述搜索图像分别应用各自的所述特征提取子网络进行特征提取,具体包括:对所述目标模板图像和所述搜索图像分别切割成多个块,得到切割后的目标模板图像和切割后的搜索图像;所述切割后的目标模板图像中的块和所述切割后的搜索图像中的块重叠;
对待处理图像利用所述卷积模块进行卷积处理,得到卷积后特征;所述待处理图像为所述切割后的目标模板图像或所述切割后的搜索图像;
将第m-1分层特征模块输出的特征输入至第m分层特征模块的所述层归一化分支,得出归一化特征;
将所述归一化特征输入至所述第m分层特征的所述全局分支,得到所述全局信息;
将所述归一化特征输入至所述第m分层特征的所述局部分支,得到所述局部信息;
将所述全局信息和所述局部信息经所述第m分层特征的所述融合分支,得到融合特征;m=1,2,...,M;当m=1时,所述第m-1分层特征模块输出的特征为所述卷积后特征;
判断m是否等于M;若否,则令m=m+1,并返回步骤“将第m-1分层特征模块输出的特征输入至第m分层特征模块的所述层归一化分支”;若是,则将所述第M分层特征模块输出的特征输入至所述第一完全连接层,得到所述目标模板图像提取特征或所述搜索图像提取特征;当所述待处理图像为所述切割后的目标模板图像时,则所述第一完全连接层输出的是所述目标模板图像提取特征;当所述待处理图像为所述切割后的搜索图像时,则所述第一完全连接层输出的是所述搜索图像提取特征;
其中,将所述归一化特征输入至所述第m分层特征的所述局部分支,得到所述局部信息,具体包括:对所述归一化特征执行线性变换操作,得到三个特征图,分别记为局部的查询Q′、局部的键K′和局部的值V′;
对所述局部的查询Q′、所述局部的键K′和所述局部的值V′分别执行权重全局共享的深度卷积操作,得出查询Q′局部聚合特征、键K′局部聚合特征和值V′局部聚合特征;
对所述查询Q′局部聚合特征和所述键K′局部聚合特征执行Hardmard乘积运算,得到乘积运算结果;
对所述乘积运算结果依次经过第二完全连接层、第一激活层、第二完全连接层和第二激活层,得到上下文感知信息;
对所述上下文感知信息和所述值V′局部聚合特征执行Hardmard乘积运算,得到所述局部信息。
2.根据权利要求1所述的一种基于卷积和注意力相结合特征提取的目标跟踪方法,其特征在于,将所述归一化特征输入至所述第m分层特征的所述全局分支,得到所述全局信息,具体包括:对所述归一化特征执行线性变换操作,得到三个特征图,分别记为全局的查询Q、全局的键K和全局的值V;
对所述全局的键K和所述全局的值V执行下采样操作;
对所述全局的查询Q、下采样后的键K和下采样后的值V直线标准注意力操作,得到所述全局信息。
3.根据权利要求1所述的一种基于卷积和注意力相结合特征提取的目标跟踪方法,其特征在于,将所述全局信息和所述局部信息经所述第m分层特征的所述融合分支,得到融合特征,具体包括:将所述全局信息和所述局部信息执行级联操作,得到级联后特征;
将所述级联后特征经过第四完全连接层,得到所述融合特征。
4.一种基于卷积和注意力相结合特征提取的目标跟踪系统,其特征在于,包括:
初始化模块,用于对给定的第一帧图像以及每一后续帧图像中的搜索区域分别进行初始化,得到所述第一帧图像对应的目标模板图像和每一所述后续帧图像对应的搜索图像;
特征提取网络构建模块,用于构建特征提取网络;所述特征提取网络包括两个结构相同的特征提取子网络;两个所述特征提取子网络分别用于对所述目标模板图像和搜索图像进行特征提取;所述特征提取子网络包括卷积模块、依次串联连接的多个分层特征模块和第一完全连接层;多个所述分层特征模块依次记为第一分层特征模块,第二分层特征模块,...,第M分层特征模块;所述卷积模块的输入为所述第一帧图像或每一所述后续帧图像,所述卷积模块的输出为所述第一分层特征模块的输入,所述第M分层特征模块的输出为所述第一完全连接层的输入,所述第一完全连接层的输出为所述特征提取网络提取出的特征;每一所述分层特征模块包括层归一化分支、全局分支、局部分支和融合分支;所述层归一化分支的输入为所述卷积模块的输出;所述层归一化分支的输出分别为所述全局分支的输入和所述局部分支的输入;所述全局分支用于采用自注意力操作提取全局信息;所述局部分支用于采用注意力和卷积相结合的操作提取局部信息;所述融合分支用于对全局分支输出的所述全局信息和所述局部分支输出的所述局部信息进行融合;
特征提取模块,用于将所述目标模板图像和每一所述搜索图像分别应用各自的所述特征提取子网络进行特征提取,得出目标模板图像提取特征和搜索图像提取特征;
目标跟踪模块,用于将所述目标模板图像提取特征输入至跟踪模型,并对每一所述搜索图像提取特征分别与所述跟踪模型输出的结果进行卷积操作,获得每一所述后续帧图像中搜索区域的目标响应位置;
其中,所述特征提取模块具体包括:
图像切割单元,用于对所述目标模板图像和所述搜索图像分别切割成多个块,得到切割后的目标模板图像和切割后的搜索图像;所述切割后的目标模板图像中的块和所述切割后的搜索图像中的块重叠;
卷积操作单元,用于对待处理图像利用所述卷积模块进行卷积处理,得到卷积后特征;所述待处理图像为所述切割后的目标模板图像或所述切割后的搜索图像;
归一化单元,用于将第m-1分层特征模块输出的特征输入至第m分层特征模块的所述层归一化分支,得出归一化特征;
全局特征提取单元,用于将所述归一化特征输入至所述第m分层特征的所述全局分支,得到所述全局信息;
局部特征提取单元,用于将所述归一化特征输入至所述第m分层特征的所述局部分支,得到所述局部信息;
特征融合单元,用于将所述全局信息和所述局部信息经所述第m分层特征的所述融合分支,得到融合特征;m=1,2,...,M;当m=1时,所述第m-1分层特征模块输出的特征为所述卷积后特征;
判断单元,用于判断m是否等于M;若否,则令m=m+1,并返回步骤“将第m-1分层特征模块输出的特征输入至第m分层特征模块的所述层归一化分支”;若是,则将所述第M分层特征模块输出的特征输入至所述第一完全连接层,得到所述目标模板图像提取特征或所述搜索图像提取特征;当所述待处理图像为所述切割后的目标模板图像时,则所述第一完全连接层输出的是所述目标模板图像提取特征;当所述待处理图像为所述切割后的搜索图像时,则所述第一完全连接层输出的是所述搜索图像提取特征;
其中,所述局部特征提取单元具体包括:
第二线性变换子单元,用于对所述归一化特征执行线性变换操作,得到三个特征图,分别记为局部的查询Q′、局部的键K′和局部的值V′;
深度卷积操作子单元,用于对所述局部的查询Q′、所述局部的键K′和所述局部的值V′分别执行权重全局共享的深度卷积操作,得出查询Q′局部聚合特征、键K′局部聚合特征和值V′局部聚合特征;
Hardmard乘积运算子单元,用于对所述查询Q′局部聚合特征和所述键K′局部聚合特征执行Hardmard乘积运算,得到乘积运算结果;
系列处理子单元,用于对所述乘积运算结果依次经过第二完全连接层、第一激活层、第二完全连接层和第二激活层,得到上下文感知信息;
局部特征提取子单元,用于对所述上下文感知信息和所述值V′局部聚合特征执行Hardmard乘积运算,得到所述局部信息。
5.根据权利要求4所述的一种基于卷积和注意力相结合特征提取的目标跟踪系统,其特征在于,所述全局特征提取单元具体包括:第一线性变换子单元,用于对所述归一化特征执行线性变换操作,得到三个特征图,分别记为全局的查询Q、全局的键K和全局的值V;
下采样操作子单元,用于对所述全局的键K和所述全局的值V执行下采样操作;
全局特征提取子单元,用于对所述全局的查询Q、下采样后的键K和下采样后的值V直线标准注意力操作,得到所述全局信息。
6.根据权利要求4所述的一种基于卷积和注意力相结合特征提取的目标跟踪系统,其特征在于,所述特征融合单元具体包括:级联操作子单元,用于将所述全局信息和所述局部信息执行级联操作,得到级联后特征;
完全连接层处理子单元,用于将所述级联后特征经过第四完全连接层,得到所述融合特征。