1.一种基于ViT网络的小样本遥感图像分类方法,其特征在于,包括以下步骤:
步骤1:采用用于地标识别和图像恢复实验的数据集作为训练集,并对训练集中的图像数据进行预处理;
步骤2:将经过预处理的图像数据输入到Transformers编码器中的多模态特征融合机制,并在多模态特征融合中将步骤1中经过预处理的图像数据通过多层感知机进行处理,再将多层感知机处理后的图像数据进行concat操作,concat操作完成后,对图像数据进行一次PCA降维处理,使所有的图像数据的维度保持一致;
步骤3:将经过步骤2处理的图像数据送入多头自注意机制处理,得到特征信息;
步骤4:基于步骤3中的特征信息得到图像数据的分类结果,输出图像数据的分类结果。
2.根据权利要求1所述的一种基于ViT网络的小样本遥感图像分类方法,其特征在于,步骤1中所述的图像数据的预处理包括以下步骤:对图像数据的维度进行变换操作,并将进行变换操作后的图像数据进行线性映射,将位置嵌入添加到图像块嵌入中,保留位置信息;嵌入向量的结果序列作为所述Transformers编码器的输入。
3.根据权利要求1所述的一种基于ViT网络的小样本遥感图像分类方法,其特征在于,所述Transformers编码器由多头自注意机制、多模态特征融合机制以及多层感知机模块的层组成;在每个多模态特征融合机制和多层感知机模块之前应用Layernorm,之后应用残差连接;其中多层感知机模块包含具有GELU非线性的两全连接层。
4.根据权利要求2所述的一种基于ViT网络的小样本遥感图像分类方法,其特征在于,所述多模态特征融合机制将图像嵌入图像块嵌入分别输入到不同的多层感知机中,再对图像块嵌入进行特征融合操作;所述特征融合操作为将下层输入的三个向量特征进行concat操作,再将三个向量通过多层感知机映射成同一个维度相加再还原,得到还原后的三个向量维度。
5.根据权利要求4所述的一种基于ViT网络的小样本遥感图像分类方法,其特征在于,所述步骤3中将还原后的三个向量维度包含在并行的自注意力层中,每个向量经过多层感知机模块输入到自注意力层,再通过concat操作将三个向量连接在一起,经过最后一层多层感知机模块的网络得到特征信息。
6.根据权利要求1所述的一种基于ViT网络的小样本遥感图像分类方法,其特征在于,所述分类结果通过在预训练时具有一个隐含层的MLP以及在微调时通过一个线性层的MLP来实现。
7.一种存储介质,其特征在于,用于存储计算机指令,其中计算机指令用于使所述计算机执行权利要求1到权利要求6任意一项所述的方法。
8.一种电子设备,其特征在于,包括至少一个处理器,以及与至少一个处理器通信连接的存储器;其中,所述存储器中存储有能被至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1到6任意一项所述的方法。