欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2023109749908
申请人: 南昌工程学院
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2023-12-11
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于金字塔池化Transformer主干网络的目标跟踪方法,其特征在于,所述方法包括如下步骤:步骤1、在孪生网络框架下,基于金字塔池化Transformer模型构建基于金字塔池化Transformer特征提取主干网络,基于金字塔池化Transformer特征提取主干网络包括有两个提取支路;基于标准Transformer的编码器和解码器构成模型预测器,模型预测器和基于金字塔池化Transformer的特征提取主干网络构成目标跟踪模型;

步骤2、获取跟踪数据集,从跟踪数据集中采样获取训练模板和测试模板,测试模板中包含视频序列中要跟踪的下一帧图像,训练模板中包含视频序列中标有真实值的第一帧以及被跟踪过目标的帧;

采用上一阶段输出作为下一阶段输入的方式,以训练模板和测试模板作为初始输入,利用两个提取支路分别多次提取测试模板以及训练模板的特征,以获得对应的全局上下文信息,将两个提取支路的最终输出分别进行信息编码,以添加目标位置和尺度信息;

步骤3、将两个信息编码后的最终输出进行拼接操作,再利用编码器模块进行充分融合,将融合后的特征采用解码器模块预测出一个目标模型,将融合后的特征进行分离,得到便于后续目标分类和边界框回归的加强后的测试模板特征;

步骤4、计算所述目标模型和加强后的测试模板特征,得出目标位置以及尺度大小;

步骤5、以跟踪数据集作为训练数据重复步骤3至步骤4对目标跟踪模型进行端到端的离线训练;

步骤6、利用训练好的目标跟踪模型对视频序列进行目标跟踪。

2.根据权利要求1所述的基于金字塔池化Transformer主干网络的目标跟踪方法,其特征在于,在所述步骤2中,利用两个提取支路分别多次提取测试模板以及训练模板的特征方法具体包括如下步骤:步骤2.1、所述测试模板与所述训练模板的图像块分别经过PatchEmbed操作进行空间相对位置学习及维度调整,输出为一维序列特征;

步骤2.2、将一维序列特征重塑为二维特征映射,再进行金字塔池化操作;

步骤2.3、经过金字塔平均池化后的序列特征进行自注意力计算;

步骤2.4、将经过注意力计算的特征映射输入到前馈神经网络中,得到当前阶段输出;

采用上一阶段输出作为下一阶段输入的方式循环步骤2.1至步骤2.4两次,以得到最终输出。

3.根据权利要求2所述的基于金字塔池化Transformer主干网络的目标跟踪方法,其特征在于,每个阶段的特征提取过程存在如下关系式:;

其中, 表示当前阶段的输出, ,1、2、3分别表示三个阶段, 表示LayerNorm正则化, 表示前馈神经网络, 表示正则化后的特征映射。

4.根据权利要求3所述的基于金字塔池化Transformer主干网络的目标跟踪方法,其特征在于,表示正则化的特征映射存在如下关系式:;

其中, 表示金字塔池化操作, 表示注意力计算,表示池化后的序列特征。

5.根据权利要求2所述的基于金字塔池化Transformer主干网络的目标跟踪方法,其特征在于,所述金字塔池化的运算方法具体包括如下步骤:对所述二维特征映射 进行具有不同池化比率的平均池化操作,不同池化比率的平均池化操作存在如下关系式:;

其中, 、 和 分别表示采用三个不同池化比率的平均池化操作,三个不同池化比率为分别为(6,8,10)、(4,5 ,6)以及(2,3,4), 分别表示三个不同池化比率的平均池化后对应的二维特征映射;

对平均池化后的特征 平铺后再进行级联,得到池化后的序列特征 ,池化后的序列特征 存在如下关系式:;

其中, 表示平铺及级联操作, 表示LayerNorm正则化。

6.根据权利要求2所述的基于金字塔池化Transformer主干网络的目标跟踪方法,其特征在于,所述自注意力的计算方法具体如下:采用线性投影方式,利用所述一维序列特征生成 ,利用所述池化后的序列特征 生成 和 , , ,的生成表达式为:;

其中, 、 、 分别表示生成 、 、 的线性投影的权重矩阵, 、 、 分别表示查询点、关键点以及价值点;

利用 , 和 进行自注意力计算得到注意力特征映射 ,自注意力计算存在如下关系式:;

其中, 表示 的空间维度, 表示转置操作, 表示归一化指数激活函数,表示注意力特征映射;

将所述注意力特征映射 与所述二维特征映射 进行残差连接,再经过正则化,得到正则化后的特征映射 。

7.根据权利要求2所述的基于金字塔池化Transformer主干网络的目标跟踪方法,其特征在于,在利用前馈神经网络进行前馈计算时,采用倒置瓶颈块进行前馈计算,前馈计算存在如下关系式:;

其中, 表示一维序列特征转变为二维图像特征, 表示二维图像特征转变为一维序列特征, 表示Hardswish激活函数, 表示深度可分离卷积, 表示前馈计算时产生的中间变量, 表示前馈神经网络的输出;

将所得 再与正则化后的特征映射 进行残差连接,经过正则化后得到当前阶段的输出 。

8.根据权利要求1所述的基于金字塔池化Transformer主干网络的目标跟踪方法,其特征在于,在步骤2中,将金字塔池化后的测试模板和训练模板特征进行信息编码的方法具体包括如下步骤:利用目标中心的高斯函数 与目标的前景信息 逐元素相乘得到跟踪目标的位置信息 ,位置信息 存在如下关系式:;

将最终输出 的每一处的空间位置 映射回原始图像空间尺度中,最终输出和空间位置之间的映射关系存在如下关系式:;

其中,表示主干网络的步长, 表示最终输出 在原始图像空间中所对应的位置;

跟踪目标的尺度信息采用ltrb表示,计算每个 到目标边界框的正则化距离,每个 到目标边界框的正则化距离存在如下关系式:;

其中,H,W分别表示原始图像的长和宽;

将边界框表示 输入到多层感知器 中,得到目标边界框的密集表示,进而获得尺度信息;

将目标的位置和尺度信息添加到最终输出中,得到最终的特征映射 ,最终的特征映射存在如下关系式:。

9.根据权利要求1所述的基于金字塔池化Transformer主干网络的目标跟踪方法,其特征在于,在所述步骤4中,计算所述目标模型和加强后的测试模板特征,得出目标位置以及尺度大小的方法具体包括如下步骤:将所述目标模型 经过线性投影得到用于目标定位的 和用于边界框回归的 ;

以 为卷积核对所述加强后的测试模板特征 进行卷积运算,从而得到目标分类得分 ,目标分类得分存在如下关系式:;

其中, 表示卷积运算;

目标得分中最大值所在的位置索引即为目标位置的中心位置;

以 为卷积核对所述加强后的测试模板特征 进行卷积运算,将卷积运算结果与所述加强后的测试模板特征 进行逐元素相乘,然后再输入到5层卷积神经网络中,得到关于跟踪目标的密集边界框表示 ,关于跟踪目标的密集边界框表示存在如下关系式:;

其中, 表示卷积运算,表示逐元素相乘, 表示5层卷积神经网络;

将所述密集边界框表示 与跟踪目标的地面真值进行交并比IOU计算,其中,IOU最大值所对应的边界框即为跟踪目标的边界框,边界框的宽度和高度则代表了目标的尺度大小。

10.一种基于金字塔池化Transformer主干网络的目标跟踪系统,其特征在于,所述系统包括:网络构建模块,用于在孪生网络框架下,基于金字塔池化Transformer模型构建基于金字塔池化Transformer特征提取主干网络,基于金字塔池化Transformer特征提取主干网络包括有两个提取支路;基于标准Transformer的编码器和解码器构成模型预测器,模型预测器和基于金字塔池化Transformer的特征提取主干网络构成目标跟踪模型;

特征提取模块,用于获取跟踪数据集,并从跟踪数据集中采样获取训练模板和测试模板,测试模板中包含视频序列中要跟踪的下一帧图像,训练模板中包含视频序列中标有真实值的第一帧以及最近跟踪的帧;

采用上一阶段输出作为下一阶段输入的方式,以训练模板和测试模板作为初始输入,利用两个提取支路分别多次提取测试模板以及训练模板的特征,以获得对应的全局上下文信息,将两个提取支路的最终输出分别进行信息编码,以添加目标位置和尺度信息;

模型预测模块,用于将两个信息编码后的最终输出进行拼接操作,再利用编码器模块进行充分融合,将融合后的特征采用解码器模块预测出一个目标模型,将融合后的特征进行分离,得到便于后续目标分类和边界框回归的加强后的测试模板特征;

定位回归模块,用于计算所述目标模型和加强后的测试模板特征,得出目标位置以及尺度大小;

离线训练模块,用于以跟踪数据集作为训练数据重复目标跟踪模型进行端到端的离线训练;

目标跟踪模块,用于利用训练好的目标跟踪模型对视频序列进行目标跟踪。