1.一种利用局部监督的跨模态行人重识别方法,其特征在于:建立一种利用局部监督的跨模态行人重识别框架LSN,假设每次训练,在训练集中随机选取P个行人身份,对每个身份随机选取K张可见光图像和K张红外图像,具体如下:步骤1:输入K张可见光行人图像、K张红外行人图像至LSN模型,进入步骤2;
步骤2:如果是红外行人图像,进入步骤3,如果是可见光行人图像,则利用图像处理的方法将其转换成灰度图像,进入步骤3;
步骤3:结合Resnet50和Nonlocal注意力模块,提取红外图像和灰度图像具有全局性的共享特征,进入步骤4;
步骤4:利用共享特征,分别提取全局特征和局部特征,进入步骤5;
步骤5:利用局部特征对全局特征进行监督,利用跨模态分组损失结合身份损失对全局特征进行约束,并通过反向传播的方式更新网络参数,进入步骤6;
步骤6:若达到指定训练轮数,则进入步骤7,否则返回步骤1;
步骤7:训练结束。
2.根据权利要求1所述的利用局部监督的跨模态行人重识别方法,其特征在于:所述的步骤1中的行人图像均来自跨模态行人重识别的标准数据集SYSU‑MM01及RegDB;对每张行人图片进行随机裁剪和随机水平翻转,增强实验泛化能力,并将其统一成256×128的尺寸;
假设 表示第i张可见光图像, 表示第j张红外图像, 和 分别表示 和 对应的行人身份;其中,输入同一行人 的可见光模态样本为 红外模态样本为
3.根据权利要求1所述的利用局部监督的跨模态行人重识别方法,其特征在于:所述的步骤2中针对可见光模态的行人图像,选用与红外图像较为接近的灰度图像作为过渡,将可见光图像输入网络训练前,先转换成灰度图像,转换后,仍保留原有样本的标签信息,记作
4.根据权利要求1所述的利用局部监督的跨模态行人重识别方法,其特征在于:所述的步骤3的详细流程如下:步骤3‑1:将处理得到的灰度模态和红外模态的行人图像,分别经过一层卷积网络,提取得到两种模态的浅层特有特征 和步骤3‑2:将 和 输入由Resnet50后四层和Nonlocal注意力模块结合的网络中,提取到两种模态的共享特征 和
5.根据权利要求4所述的利用局部监督的跨模态行人重识别方法,其特征在于:所述的步骤3‑1中两种模态的卷积网络结构相同、参数不同。
6.根据权利要求4所述的利用局部监督的跨模态行人重识别方法,其特征在于:所述的步骤3‑2中将两种模态的浅层特有特征输入至结构相同、参数相同的网络块中,将两种不同模态的特征映射至相同的特征子空间,实现特征对齐,在特征层面缓解了跨模态差异;该网络块由残差网络Resnet50的后四层和Nonlocal注意力模块组成。
7.根据权利要求1所述的利用局部监督的跨模态行人重识别方法,其特征在于:所述的步骤4中提取全局特征的详细流程如下:步骤4‑1:对两种模态的共享特征进行自适应平均池化操作,得到预备全局特征和步骤4‑2:将预备全局特征输入BN层,得到最终的全局特征 和
8.根据权利要求1所述的利用局部监督的跨模态行人重识别方法,其特征在于:所述的步骤4中提取局部特征的详细流程如下:步骤4‑3:利用1×1的卷积操作,对先前提取的共享特征进行降维,将通道数降至原先的1/4;
步骤4‑4:对降维后的共享特征,按图像的高进行四等分,得到局部特征组和步骤4‑5:将局部特征组中的四个局部特征块进行自适应平均池化后输入BN层,并按通道数进行拼接,得到最终的局部特征 和 实现了与全局特征大小上的统一。
9.根据权利要求1所述的利用局部监督的跨模态行人重识别方法,其特征在于:所述的步骤5中利用局部特征对全局特征进行监督,使最终获得的全局特征吸取到局部特征的优势,具体地,本发明将局部信息附着在全局特征上,后续仅使用全局特征进行损失的计算,该损失可表示为公式1所示形式:通过最小化该局部监督损失,实现将图像的空间特征传递给全局特征的通道维度,使每一组通道都包含了一部分区域的局部信息;
所述的步骤5中的全局特征约束由身份损失和本发明新设计的跨模态分组损失组成,其中,身份损失可表示为公式2:其中,p(yi|fi)代表全局特征fi被模型预测为yi的概率;
本发明设计将提取到的两种模态图像的全局特征,按行人身份进行分组,计算组内样本间的距离,组内损失可表示为公式3:其中,fs和ft代表该组组内某两样本的全局特征,通过最小化组内损失,减小了跨模态的类内距离,这样既减小了模态内部差异,又进一步缓解了跨模态的差异,并将该组的组内损失记作var;
针对组间,则希望组间距离最大化,也就是两个组的所有样本对距离要最大化,但单纯地增加两个组之间的距离可能会导致样本被推散,组内样本间的距离可能也就会增加,所以加上进一步的限制,在增加组间距离的同时,保持每个组组内方差不变,即保持组内样本整体移动,则组间损失可表示为公式4:i j
其中,S和S代表两个组,即两个行人身份,i和j分别为两个组的标号,则 和 分别代i j表i和j两个组中的某个全局特征,var和var代表i和j两个组各自的组内距离;因此总的跨模态分组损失由组内和组间两部分组成,可表示为公式5:Lgroup=Lintra+Linter (5);
最终,本发明提出总损失可表示为公式6所示形式:
Loverall=Llocal+Lid+Lgroup (6)。