欢迎来到知嘟嘟! 联系电话:13336804447 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13336804447
知嘟嘟经纪人
收藏
专利号: 2023105235483
申请人: 齐鲁工业大学(山东省科学院)
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-01-05
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于Swin Transformer的图像融合方法,其特征在于:包括以下步骤:

步骤S1、构建端对端神经网络,所述端对端神经网络包括生成器和判别器,所述端对端神经网络的构建方式具体如下:步骤S1‑1、构建生成器,所述生成器包括浅层特征提取模块、深层特征提取模块和关系图模块;其中,浅层特征提取模块用于对原始红外图像和原始可见光图像的拼接图像提取初始特征;深层特征提取模块用于对初始特征进行挖掘深层特征;关系图模块用于将深层特征上采样到与浅层特征提取模块提取到的初始特征相同的大小后,再与初始特征结合进行图像融合,获得融合图像;步骤S1‑1中,所述深层特征提取模块包括四个串行的STM模块,相邻的两个STM模块之间以及第四个STM模块之后均分别连接有一个残差块,每一个STM模块都由一个Swin Transformer block和一个卷积层构成,其中,Swin Transformer block的末尾连接卷积层;

步骤S1‑2、构建判别器,其中,判别器包括Discriminator _  VIS鉴别器和Discriminator _ IR鉴别器;

步骤S2、构建生成器的损失函数以及判别器中鉴别器的损失函数;

步骤S3、利用KAIST数据集的部分原始红外图像和原始可见光图像对端对端神经网络进行训练,得到端对端神经网络模型;利用KAIST数据集中若干对原始红外图像和原始可见光图像对端对端神经网络进行训练,具体包括以下步骤:步骤S3‑1、在通道维度中将KAIST数据集中若干对原始红外图像和与之相对应的原始可见光图像拼接在一起,然后将拼接得到的拼接图像输入浅层特征提取模块提取初始特征;

步骤S3‑2、将步骤S3‑1提取出的初始特征输入生成器的深层特征提取模块以挖掘深层特征;

步骤S3‑3、利用关系图模块对步骤S3‑2中深层特征提取模块的最后一个STM模块的MLP 模块对输入的标准化结果进行非线性变换得到的特征B进行上采样到与浅层特征提取模块提取到的初始特征相同的大小,得到上采样特征;然后,将上采样特征与其相应的初始特征相乘以进行图像融合,得出初步融合特征;而后,将初步融合特征上采样到与原始图像相同的大小,得上采样融合特征,然后将得到的四个上采样融合特征进行叠加,即可得初步融合图像;

步骤S3‑4、利用生成器的损失函数计算初步融合图像与原始图像之间的结构相似性,而后,将初步融合图像分别输入给判别器的Discriminator _ VIS鉴别器和Discriminator _ IR鉴别器,判别器的Discriminator _ VIS鉴别器的VGG16网络对步骤S3‑3得到的初步融合图像下采样第一层提取特征,而后计算所述下采样第一层提取特征与步骤S3‑3得到的初步融合图像之间的平均绝对误差MAE1以判别初步融合图像与原始可见光图像的差异;判别器的Discriminator _ IR鉴别器的VGG16网络对步骤S3‑3得到的初步融合图像下采样第一层至第四层提取特征,而后计算所述下采样第一层至第四层提取特征与步骤S3‑3得到的初步融合图像之间的平均绝对误差MAE2以判别初步融合图像与原始红外图像的差异;然后依据结构相似性、平均绝对误差MAE1以及平均绝对误差MAE2的计算结果优化梯度并反向传播,更新生成器的模型参数;重复步骤S3‑1到步骤S3‑4,直到结构相似性、平均绝对误差MAE1以及平均绝对误差MAE2均收敛,图像融合过程结束,得到训练好的生成器模型,由训练好的生成器模型以及判别器构成的端对端神经网络即为训练好的端对端神经网络模型;

其中,步骤S3‑2中将步骤S3‑1提取出的初始特征输入生成器的深层特征提取模块以挖掘深层特征,具体步骤如下:步骤S3‑2‑1、将初始特征输入深层特征提取模块,初始特征会首先输入至深层特征提取模块的第一个STM模块,此时,第一个STM模块中的Layernorm模块对初始特征进行标准化,得到特征图,然后将特征图输入基于窗口的多头自注意力模块WMSA中,多头自注意力模块WMSA先按照m×m大小对特征图进行图像分块,然后对每个图像分块分别计算自注意力,计算公式如式(5)所示;

(5)

式(5)中,W‑MSA表示使用常规窗口分区配置的基于窗口的多头自注意力, 表示W‑MSA 模块的输出特征,LN表示Layernorm 操作, 表示上一个STM模块的输出特征;

步骤S3‑2‑2、将步骤S3‑2‑1获得的自注意力结果先输入到 Layernorm 模块中进行标准化,然后将标准化结果输入到 MLP 模块中对输入的标准化结果进行非线性变换,得到特征A,计算公式如式(6)所示,其中,LN表示Layernorm 操作,其作用是对每个样本的每个特征进行标准化;MLP模块用于对输入的标准化结果进行非线性变换;

(6)

式(6)中, 是第一个MLP模块的输出特征, 表示W‑MSA 模块的输出特征;

步骤S3‑2‑3、将步骤S3‑2‑2得到的特征A输入到SW‑MSA模块后进行移动,而后对移动后的窗口内的自注意力进行计算,得移动后窗口内的自注意力,计算公式如式(7)所示,其中,SW‑MSA模块为移动后的基于窗口的多头自注意力模块WMSA,LN表示Layernorm 操作,Layernorm 操作的作用是对每个样本的每个特征进行标准化;

(7)

式(7)中, 表示SW‑MSA模块的输出特征, 是第一个MLP模块的输出特征;

步骤S3‑2‑4、将步骤S3‑2‑3得到的移动后窗口内的自注意力结果输入 Layernorm模块进行标准化,然后再将该标准化结果输入MLP 模块对输入的标准化结果进行非线性变换,得到特征B,计算公式如式(8)所示;其中,MLP模块用于对输入标准化结果进行非线性变换,LN表示Layernorm 操作,Layernorm 操作的作用是对每个样本的每个特征进行标准化;

(8)

式(8)中, 表示SW‑MSA模块的输出特征, 是第二个 MLP 模块的输出特征;

步骤S3‑2‑5、将特征B中每个4×4的像素块划分为4个2×2像素的patch,然后将每个patch中相同位置像素给拼在一起就得到了4个小块的feature map,接着将这四个feature map在深度方向进行拼接,然后在通过一个LayerNorm层,最后通过一个全连接层在特征B的深度方向做线性变化,将特征B的高和宽减半,深度翻倍,得到大块的feature map;

步骤S3‑2‑6、将S3‑2‑5得到的大块的feature map输入至与swin transformer block块连接的卷积层中以增强特征,为以后浅层特征和深层特征的聚合奠定更好的基础;

该上述步骤S3‑2‑1至步骤S3‑2‑5均是通过第一个STM模块的swin transformer block块实现的,该上述S3‑2‑1至步骤S3‑2‑6即为第一个STM模块进行挖掘深层特征的过程;

步骤S3‑2‑7、第二个STM模块和第三个STM模块均分别重复步骤S3‑2‑1至步骤S3‑2‑6的步骤,第四个STM模块重复步骤S3‑2‑1至步骤S3‑2‑4以及步骤S3‑2‑6的具体步骤,完成最终的深层特征的挖掘;

步骤S4、测试步骤S3保存的端对端神经网络模型,输出最终融合图像。

2.根据权利要求1所述的基于Swin Transformer的图像融合方法,其特征在于:步骤S2中,生成器的损失函数的构建方式具体如下:使用增强后的SSIM即 来作为生成器的损失函数,用于模拟生成器对图像融

合过程中的信息丢失和失真;使用方差来计算初步融合图像与原始红外图像之间的对比度以及初步融合图像与原始可见光图像之间的对比度,方差的计算如式(1)所示;然后,利用计算原始红外图像或者原始可见光图像与初步融合图像之间的结构相似度,如公式(2)所示,而后再利用公式(3)计算生成器融合图像过程中的损失;

(1)

式(1)中,M 和 N 分别是初步融合图像、原始红外图像以及原始可见光图像在水平方向和垂直方向上的尺寸,µ表示初步融合图像的平均值, 是原始红外图像或者原始可见光图像与初步融合图像的方差, 为原始红外图像或者原始可见光图像上某点的对比度;

(2)

式(2)中, 为原始红外图像或者原始可见光图像与初步融合图像的方差, 和 分别为原始红外图像和原始可见光图像, 表示融合图像,W为融合图像按照图像大小为11×11分割后的图像块个数;

(3)

式(3)中, 和 分别为原始红外图像和原始可见光图像, 表示融合图像,W为融合图像按照图像大小为11×11分割后的图像块个数。

3.根据权利要求2所述的基于Swin Transformer的图像融合方法,其特征在于:所述增强后的SSIM就是 ,是指在利用公式(2)计算结构相似度以及利用公式(3)计算图像融合损失的过程中均分别对初步融合图像、原始红外图像以及原始可见光图像进行了图像分割,然后对不同的图像块分别计算SSIM,即为 ;分割图像时,按照图像大小为11×11,且从左上角逐渐向右下角移动对图像进行分割的。

4.根据权利要求1所述的基于Swin Transformer的图像融合方法,其特征在于:步骤S2中,判别器中鉴别器的损失函数的构建方式具体如下:采用平均绝对误差MAE作为判别器中鉴别器的损失函数,平均绝对误差MAE的计算公式,如式(4)所示;

(4)

式(4)中, 是Discriminator _ VIS鉴别器中改进后的VGG16网络提取的可见光图像的特征或者是Discriminator _ IR鉴别器中改进后的VGG16网络提取的红外图像的特征,是Discriminator _ VIS鉴别器或者Discriminator _ IR鉴别器中改进后的VGG16网络提取的初步融合图像的特征。

5.根据权利要求4所述的基于Swin Transformer的图像融合方法,其特征在于:所述改进后的VGG16网络是以VGG16网络为基础,将VGG16网络的后三个卷积层依据KAIST数据集重新训练获得模型参数优化后的VGG16网络。

6.根据权利要求1所述的基于Swin Transformer的图像融合方法,其特征在于:步骤S4中测试步骤S3‑4保存的端对端神经网络模型,输出最终融合图像,包括如下具体步骤:加载步骤S3‑3训练好的端对端神经网络模型,将RoadScene数据集输入到训练好的网络模型中,之后对测试的结果进行保存,得到最终融合图像。