1.一种自注意对抗学习的半监督语义分割方法,其特征在于,包括如下步骤:
1)获取训练集和验证集,对训练集预处理:将已知的语义分割数据集Pascal Voc 2012和Cityscapes中的图像分别分成训练集和验证集,并对训练集的图像进行预处理,其中数据集中的一部分图像带标记,其余图像不带标记;
2)构建自注意半监督语义分割的对抗网络:对抗网络由分割网络G和鉴别器D组成,其中分割网络是任意为语义分割的网络,去掉分割网络的最后一个卷积层,将分割网络最后两个卷积层的步长由2修改为1,使输出特征图的分辨率达到输入图像大小的1/8,然后分别在第四卷积层和第五卷积层中应用扩展卷积,第四卷积层和第五卷积层的步长分别为2和
4,在分割网络的第五卷积层使用Atrous空间金字塔池方法,即得到最终的分割网络:64维的1/2倍下采样层即第一卷积层、128维的1/4倍下采样层即第二卷积层、256维的1/8倍下采样层即第三卷积层、第一个自注意力模块SA1、512维的1/16倍下采样层即第四卷积层、1028维的1/32倍下采样层即第五卷积层、第二个自注意力模块SA2,给定一个H×W×3维的输入图像,采用一个上采样层和softmax输出层来匹配输入图像的大小,然后分割网络输出一个大小为H×W×C的类概率图,其中C为语义类别的个数,分割网络中的第一自注意力模块SA1与第二自注意力模块SA2的结构相同,将第三卷积层和第五卷积层中的特征图X∈RC×H×W作为输入,并且第三卷积层和第五卷积层各生成两个特征图,即Q、K∈RC×H×W,Q为查询,即从特征图中输入一个像素点,查询到特征图上所有像素点对这一点的影响,K代表字典中的键,相当于所查询的数据库,将Q和K进行转置后执行矩阵乘法,以softmax层来计算注意力图S∈RN×N,N=H×W是像素数:其中,i为特征图的行数,j为特征图的列数,通过公式(1)得到针对Q的特征图中的某一个位置,计算出特征图K中的所有位置对特征图Q的影响,对特征图X多加了一层卷积映射得到新的特征图V∈RC×H×W,将S和V进行转置后执行矩阵乘法,然后将S和V的相乘结果乘以比例参数α,第一自注意力模块和第二自注意力模块逐渐学习到了将注意力加权过的特征图加在特征图X上,得到特征图O:特征图O为所有位置上的特征与原始特征的加权和,
鉴别器使用全卷积神经网络,鉴别器以分割网络输出的H×W×C的类概率图或步骤1)中数据集带标记的图像获取类概率图In作为输入,然后输出H×W×1的置信图,鉴别器由5个4×4核卷积层和{64,128,256,512,1}通道组成,步长为2,最后应用一个上采样层和softmax输出层来匹配输入图像的大小,然后在鉴别器的前四个卷积层上均使用谱归一化,让鉴别器的映射函数满足Lipschitz约束;
3)用自注意半监督语义分割的对抗网络对训练集进行训练,得到分割预测模型;
4)利用验证集对分割预测模型进行验证,得到最终分割的结果。
2.根据权利要求1所述的自注意对抗学习的半监督语义分割方法,其特征在于,步骤1)中所述的预处理过程如下:先对数据集中的图像进行固定大小的随机裁剪,再将裁剪后的图像进行随机水平翻转和亮度变换,后将翻转后的图像进行归一化。
3.根据权利要求1所述的自注意对抗学习的半监督语义分割方法,其特征在于,步骤3)中所述的训练,包括如下步骤:步骤1、将带标记图像经过鉴别器5000次的迭代训练,然后对分割网络和鉴别器进行联合更新;
步骤2、对训练集中的图像进行随机抽样训练,使用带标记的图像时,分割网络既受带标记图像的标准交叉熵损失Lce的监督,又受带鉴别器的对抗损失Ladv的监督;
步骤3、将未标记图像送入分割网络的64维的1/2倍下采样层中提取图像的卷积特征,再将提取的卷积特征送入最大池化层提取图像的最大池化特征,得到缩小2倍的下采样特征图1;
步骤4、将特征图1送入128维的1/4倍下采样层进行卷积运算,并应用最大池化层来扩大特征图1的感受野,来获取卷积运算后特征图1的最大池化特征,得到缩小4倍的下采样特征图2;
步骤5、将特征图2送入256维的1/8倍下采样层进行卷积运算,并应用最大池化层来扩大特征图2的感受野,来获取积运算后特征图2的最大池化特征,得到缩小8倍的下采样特征图3;
步骤6、将特征图3送入第一个自注意力模块捕获特征图3的位置细节,获取特征图3的全局几何特征图4;
步骤7、将特征图4送入512维的1/16倍下采样层进行卷积运算,并应用最大池化层来扩大特征图4的感受野,来获取卷积运算后特征图4的最大池化特征,得到缩小16倍的下采样特征图5;
步骤8、将特征图5送入1028维的1/32倍下采样层进行卷积运算,并应用最大池化层来扩大特征图5的感受野,来获取卷积运算后特征图5的最大池化特征,得到缩小32倍的下采样特征图6;
步骤9、将特征图6送入第二个自注意力模块捕获特征图6的位置细节,获取特征图6的全局几何特征图7;
步骤10、将特征图7应用一个上采样层和softmax输出来匹配输入图像的大小,从而得到未标记图像的类概率图;
步骤11、将未标记图像的类概率图送入鉴别器进行分割预测,计算出置信图;
步骤12、将置信图作为监控信号,采用自学习的方法训练具有掩蔽交叉熵损失Lsemi的分割网络,该置信图表示预测的分割区域的质量,并使得分割网络在训练过程中可信任;
步骤13、重复步骤1-步骤12的步骤20000次后结束训练,得到分割预测模型。
4.根据权利要求1所述的自注意对抗学习的半监督语义分割方法,其特征在于,步骤4)中所述的利用验证集对分割预测模型进行验证,其中验证过程只使用分割网络,验证过程如下:step1、将验证集中的未标记图像送入分割网络64维的1/2倍下采样层提取图像的卷积特征,再将提取的卷积特征送入最大池化层提取图像的最大池化特征,得到缩小2倍的下采样特征图8;
step2、将特征图8送入128维的1/4倍下采样层进行卷积运算,并应用最大池化层来扩大特征图8的感受野,来获取特征图8的最大池化特征,得到缩小4倍的下采样特征图9;
step3、将特征图9送入256维的1/8倍下采样层进行卷积运算,并应用最大池化层来扩大特征图9的感受野,来获取特征图9的最大池化特征,得到缩小8倍的下采样特征图10;
step4、将特征图10送入第一个自注意力模块捕获特征位置的细节,获取特征图10的全局几何特征图11;
step5、将特征图11送入512维的1/16倍下采样层进行卷积运算,并应用最大池化层来扩大特征图11的感受野,来获取特征图11的最大池化特征,得到缩小16倍的下采样特征图
12;
step6、将特征图12送入1028维的1/32倍下采样层进行卷积运算,并应用最大池化层来扩大特征图12的感受野,来获取特征图12的最大池化特征,得到缩小32倍的下采样特征图
13;
step7、将特征图13送入第二个自注意力模块捕获特征位置的细节,获取特征图13的全局几何特征图14;
step8、将特征图14应用一个上采样层和softmax输出来匹配验证集中的未标记输入图像的大小,输出一个分割图15;
step9、通过平均交并比函数运算来计算分割图15的分割精度,然后同时加入第一个自注意力模块和第二个自注意力模块再谱归一化,得到最终的分割结果。