1.一种联合注意力机制端到端训练的行人多目标跟踪方法,其特征在于,包括以下步骤:步骤S100:收集带标签的视频序列的行人数据集,并利用标签中每个视频的第一帧真实边界框初始化跟踪框,作为模板样本,再根据跟踪框的中心在第二帧中裁剪出正搜索区域样本,以及在不是同类目标的区域裁剪出负搜索区域样本;所述模板样本、正搜索区域样本、负搜索区域样本组成三元组,以作为训练样本输入至深度神经网络模型;
步骤S200:构建深度神经网络模型,利用卷积神经网络部分提取样本的特征信息,再使用注意力机制模块指导网络模型倾向重要的特征信息,最后计算相似度和数据关联;
步骤S201:构建分别处理模板样本、正搜索区域样本、负搜索区域样本的模板样本分支、正搜索区域样本分支、负搜索样本分支的三个网络结构分支,所述模板样本分支、正搜索区域样本分支、负搜索样本分支的主干网络结构相同,并共享权重参数;
步骤S202:所述正搜索区域样本分支和负搜索样本分支都采用感兴趣区域对齐层下采样特征点信息,所述正搜索区域样本分支和负搜索样本分支的主干网络与感兴趣区域对齐层之间设置有注意力机制模块,实现在训练过程中更加关注行人出现的区域;
步骤S203:最后模板样本分支、正搜索区域样本分支、负搜索样本分支都采用全局平均池化层压缩成一维特征向量;
步骤S300:设定指导网络模型训练的损失函数分为验证损失函数、单目标追踪损失函数以及数据对损失函数;
步骤S400:预先制定优化策略衰减损失值,以及设定相关超参数,重复计算,直至损失值收敛,精度最优。
2.根据权利要求1所述的一种联合注意力机制端到端训练的行人多目标跟踪方法,其特征在于,所述步骤S201中模板样本分支、正搜索区域样本分支、负搜索样本分支的主干网络结构依次包括:从前至后将卷积层、批标准化层、激活函数层封装成卷积模块;从前至后将卷积模块、深度可分离卷积层、批标准化层、激活函数层、卷积层构成线性瓶颈模块,最后由预设个数和不同超参数的线性瓶颈模块组成倒残差模块。
3.根据权利要求2所述的一种联合注意力机制端到端训练的行人多目标跟踪方法,其特征在于,所述模板样本分支、正搜索区域样本分支、负搜索样本分支的主干网络结构中包含3个倒残差模块,每个倒残差模块分别包含1、2、3个线性瓶颈模块。
4.根据权利要求2所述的一种联合注意力机制端到端训练的行人多目标跟踪方法,其特征在于,所述激活函数层采用参数修正线性单元层。
5.根据权利要求1所述的一种联合注意力机制端到端训练的行人多目标跟踪方法,其特征在于,所述步骤S202中的注意力机制模块包括两个连续的第一卷积层、第二卷积层,所述第一卷积层对特征信息进行整合,第二卷积层对特征信息的通道数进行改变得到注意力图;然后使用S型激活函数将注意力图归一化到0‑1之间,最后将注意图与原特征信息进行融合。
6.根据权利要求1所述的一种联合注意力机制端到端训练的行人多目标跟踪方法,其特征在于,所述步骤S203中通过向量运算计算出相似度,选择与候选检测结果相似度最高的预测跟踪结果,并将对应的目标身份标识号分配给跟踪结果。
7.根据权利要求1所述的一种联合注意力机制端到端训练的行人多目标跟踪方法,其特征在于,所述步骤S300中的验证损失函数采用柔性最大值损失函数,计算公式如下:其中:zi、xi、xj分别表示模板样本、正搜索区域样本、负搜索区域样本;
分别表示模板样本预测概率值、正搜索区域样本预测概率值、负搜索区域样本预测概率值;
通过最小化验证损失函数增加模型的分类能力;
单目标跟踪损失函数是对主干网络部分输出的特征图作卷积得到的热力图进行计算,计算公式如下:其中:p为热力图上某个特征点,
P为特征图,
vp表示特征点p的响应值,
yp是热力图上特征点对应的真实标签值;
单目标跟踪损失函数用于指导模型准确找到目标所在的区域;
数据对损失函数是指导模型学习能计算出每组数据之间最优的相似度的权重参数,计算公式如下:其中:wxj、wzi、wxi分别表示正搜索区域样本提取的一维特征向量、模板样本提取的一维特征向量、负搜索区域样本提取的一维特征向量,是wzi向量的转置。
8.根据权利要求1所述的一种联合注意力机制端到端训练的行人多目标跟踪方法,其特征在于,所述步骤S400的优化策略采用预热余弦学习率下降法衰减学习率,并利用随机下降法优化损失值。
9.根据权利要求1或8所述的一种联合注意力机制端到端训练的行人多目标跟踪方法,其特征在于,所述步骤S400中的相关超参数是将学习率设为0.001,批处理大小参数设为
256,总迭代次数设为100000、L2惩罚权重衰减率设为0.001。