1.一种基于深度学习的注意力机制的语义分割的方法,其特征在于,具体步骤按照以下实施;
步骤1,获取标准数据集,进行预处理;
步骤2,将步骤1预处理后的标准数据集图像信息存储并导入深度神经网络模型中,通过DeeplabV3+引入的编码-解码结构和带空洞卷积的金字塔池化模块,以端到端的方式对网络进行训练,通过ASPP引入多尺度信息,通过Decoder模块将底层特征和高层特征进行融合,提升分割边界准确度;
步骤3,结合多通道注意力模块,沿通道维度聚合尺度的上下文信息,强调分部大型对象,并在全局范围内突出本地小物体信息,采用注意力特征融合模块进行特征融合,将现有特征算子与拟议的AFF模块一同放置,通过迭代集成的AFF框架形成iAFF框架;
步骤4,采用条件随机场对语义分割的预测结果进行特征优化,将低层图像信息和逐像素分类结果相结合;
步骤5,调整解码端输出特征的通道数并激活,即获取最终的预测结果。
2.根据权利要求1所述的一种基于深度学习的注意力机制的语义分割的方法,其特征在于,所述步骤1具体为:步骤1.1,采用DeepLabv3+语义分割网络适用的数据集PASCAL VOC 2012;
步骤1.2,下载Deeplabv3+模型常用的标准PASCAL VOC 2012数据集;
步骤1.3,预处理PASCAL VOC 2012数据集,PASCAL VOC 2012包括原始数据集和增强数据集两种版本的数据集,采用增强数据集的数据标签label是.mat格式的文件,将.mat格式转换为.png格式的图片文件,转化后的数据图片是8-bit的灰度图;
步骤1.4,数据集融合,将增强数据集中label转化为三通道RGB图,并转化为8-bit的灰度.png图像;
步骤1.5,数据集导入编码端,调用函数转换导入数据集。
3.根据权利要求1所述的一种基于深度学习的注意力机制的语义分割的方法,其特征在于,所述步骤2的具体步骤为:步骤2.1,图像信息Image输入到Deeplabv3+上端编码器Encoder中,通过解码端处理,将编码器输出特征图;
步骤2.2,采用不同尺寸卷积核和rate,利用多扩张率的空洞卷积获取更丰富的上下文语义信息,提取多尺度特征,引入膨胀卷积即多扩张空洞卷积增加网络感受野;
步骤2.3,使用Dilated Convolution膨胀卷积提取特征阶段,实现感受野的扩大,并且不降低分辨率,实现保留原有位置信息并且语义信息保持不变;
步骤2.4,利用空洞金字塔池化,提出多尺度信息,根据ASPP有五个尺度,在Encoder部分,高级特征讲过五个不同从操作得到5个输出一个1×1卷积,3个不同尺度rate的dilation conv和1个ImagePool,在Decoder部分,对于两个输入分别操作,将low-level-feature经过1×1卷积调整维度,另一操作将Eecoder的1×1conv经过Decoder中的向上采样Upsample,利用双线性插值法,再将两操作进行Concat结合处理。
4.根据权利要求3所述的一种基于深度学习的注意力机制的语义分割的方法,其特征在于,所述步骤2.3的具体步骤为:步骤2.3.1,利用膨胀卷积将卷积核变大,将一个3×3的卷积核膨胀为5×5,从而增加了五个参数,并引入了空白信息;
步骤2.3.2,利用具有Atrous卷积的编码-解码器,由深度神经网络计算特征的分辨率,并且调整滤波器的视场以捕获多尺度信息,对于二维信号,输出特征图y上的每个位置i和卷积滤波器w,在输入特征图上进行如下粗卷积计算:其中,y表示输出特征图,i表示某一具体卷积操作的像素,y[i]表示i特征输出图,r表示参数距离也就是速率rate,k为有效视野感受参数,w为卷积滤波器;
步骤2.3.3,膨胀卷积输入输出维度大小计算公式如下:
Input:(N,Cin,Hin,Win)
Output:(N,Cout,Hout,Wout)
其中Input,Output为输入输出特征尺寸大小,C表示输入输出通道数,H,W表示输入图片尺寸大小,kernel_size表示卷积核尺寸,stride表示步长,padding表示宽度,dilation表示膨胀率,Hout和Wout为膨胀卷积的输入和输出。
5.根据权利要求4所述的一种基于深度学习的注意力机制的语义分割的方法,其特征在于,所述步骤2.4具体步骤为:步骤2.4.1,取一个1×1卷积层,以及3×3的空洞卷积,对于输入图像分辨率和输出图像分辨率的比值out_stride=16,其中rate为(6,12,18),若out_stride=8,rate加倍,此类卷积层的输出channel数均为256,并且含有BN层;
步骤2.4.2,一个金字塔平均池化得到的image-level特征,然后送入1×1卷积层,输出256个channel;
步骤2.4.3,将步骤2.2.1和步骤2.2.2得到的4个不同尺度的特征在channel维度结合到一起,将多尺度的特征图调整分辨率后拼接融合,并利用1×1卷积将输出通道数调整为256,此时编码器输出特征图的分辨率是原始图像的十六分之一;
步骤2.4.4,对于DeepLabv3+,经过ASPP模块得到的特征图的out_stride为8或者16,其经过1×1的分类层后,利用Encoder-Decoder结构对于输入的空间分辨率进行向下采样,得到低分辨率并经过学习高效的区分特征图,在进行向上采样特征表示全分辨率分割图。
6.根据权利要求1所述的一种基于深度学习的注意力机制的语义分割的方法,其特征在于,所述步骤3具体步骤为:步骤3.1,在DeepLav3+模型上提出一种多尺度通道注意模块,使用尺度不同的两个分支来提取通道注意力权重,多尺度通道注意模块结构分为两部分,其中一个分支使用Global Avg Pooling来提取全局特征的注意力,另一个分支直接使用point-wise卷积提取局部特征的通道注意力;
步骤3.2,将得到的采样图X,经MS-CAM注意力机制模块,分为两部分分别输入到全局特征提取和卷积局部特征通道;
步骤3.3,应用卷积神经网络注意力机制,采用channel Attention,对于每个通道channel维度,学习不同权重,平面维度上权重相同,基于多尺度通道注意力模块将一个通道内的信息进行全局平均;
步骤3.4,通过注意力掩模和特征图作用机制,在图像特征信息中实现总体结构;
步骤3.5,注意力特征融合基于步骤3.2卷积神经网络的注意力机制,将生成的特征进行融合,用以解决特征融合上下文聚合和初始集成的问题,实现特征融合从相同层场景扩展到跨层场景。
7.根据权利要求6所述的一种基于深度学习的注意力机制的语义分割的方法,其特征在于,所述步骤3.3具体为:步骤3.3.1,分支trunk实现,应用传统的卷积神经网络结构,通过多次卷积操作提取原始特征;
步骤3.3.2,分支mask实现,利用注意力模块的buttom-up和top-down结构实现;
buttom-up部分:执行下采样,多次进行最大池化操作扩大接受域,直到达到最低分辨率,强语义信息的特征图,从而收集整个图片的全局信息;
top-down部分:执行上采样线性插值,直到特征图尺寸与输入时相等,扩展Bottom-up所产生的特征图,使其尺寸与输入Bottom-up前的特征图大小相同,从而对输入特征图的每个像素进行推理选择;
步骤3.3.3,在mask输出之前,通过改变激活函数中的标准方差式,即对mask中的Attention添加不同约束,使其成为channel attention注意力模型。
8.根据权利要求7所述的一种基于深度学习的注意力机制的语义分割的方法,其特征在于,所述步骤3.4首先将多个注意力模块的堆叠而成,并且将注意力模块分成两个分支:mask brunch和trunk branch,最后以特征点积输出;计算如下所示;
H
其中M
步骤3.4.1,通过汇聚上下文信息利用多尺度通道注意模块实现空间池大小缩放,MS-CAM结构图将本地上下文信息添加到注意模块中的全局上下文,选择点卷积作为本地通道上下文聚合器,利用逐点通道每个位置空间的互动;
步骤3.4.2,计算本地通道上下文信息
L(X)=B(PWConv
其中卷积核大小为PWconv
步骤3.4.3,给定全局通道上下文信息个g(X)和本地通道上下文信息L(X),并且重新定义特征X',将其记为其中
9.根据权利要求8所述的一种基于深度学习的注意力机制的语义分割的方法,其特征在于,所述步骤3.5具体步骤为:步骤3.5.1,将现有特征融合算子与拟议的AFF模块结合,通过迭代集成的AFF框架完善初始集成,即融合权重生成器,用它作为输出通过另一个AFF模块接收特征,形成迭代注意力特征融合iAFF;
步骤3.5.2,给定两幅特征图,
对于不同结构中,具体X,Y对应:同层场景中:X是3×3卷积的输出,Y是5×5卷积的输出;在短跳跃连接场景:X是本身映射,Y是学习残差;在长跳跃场景:X是低级特征图,Y是高层特征金字塔中的高阶语义特征图;基于多尺度通道注意力模块MS-CAM,将注意力特征融合表示为:其中,
步骤3.5.3,选择逐元素求和作为初始积分,AFF和iAFF模块与多尺度通道之间的框架关系,其中虚线表示1-M(X∪Y),M(X∪Y)表示融合权重,将网络在X,Y之间进行平均或者软选择。
10.根据权利要求1所述的一种基于深度学习的注意力机制的语义分割的方法,其特征在于,所述步骤4中采用Atrous Conv算法扩大视野,获取更多的上下文信息。