欢迎来到知嘟嘟! 联系电话:13336804447 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13336804447
知嘟嘟经纪人
收藏
专利号: 2020103597151
申请人: 杭州电子科技大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-02-23
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于现有图像语义分割模型的再优化训练方法,其特征在于包括如下步骤:

步骤1、针对带语义标签的图像及其标签进行预处理,得到的图像矩阵imgw×h×3和语义标签矩阵labelw×h,并作为训练数据步骤2、对语义标签矩阵labelw×h采用Canny边缘检测算子进行边缘提取,得到语义边界图像,再基于语义边界图像的边界点向外延伸,得到语义近边界图像矩阵edgew×h;

步骤3、通过Backbone模型与基于空洞空间金字塔池化的再优化模型,进行特征融合得出语义近边界像素的语义特征数据集合;

1×C

步骤4、从语义特征数据集{(Feati,Labeli)|Feati∈R ,i<n且i∈N}中随机选取标签j的真例两个:T1、T2;假例一个:F0,计算真例之间特征向量的距离distance(T1,T2)和真假例之间特征向量的距离distance(T1,F0);

若distance(T1,F0)-distance(T1,T2)≤Δ,则根据距离的差值,对再优化模型通过反向传播算法进行参数修正,然后重新执行步骤3获取更新后的语义特征数据集{(Feati,Labeli)|Feati∈R1×C,i<n且i∈N};然后判断重复训练次数是否达到预设值,若没达到,则重复该步骤S4;

若distance(T1,F0)-distance(T1,T2)>Δ,则直接判断重复训练次数是否达到预设值,若没达到,则重复该步骤S4;

否则训练轮数达到预设值,结束训练;

步骤5、对语义特征数据集{(Feati,Labeli)|Feati∈R1×C,i<n且i∈N},对每种标签的所有元素对应特征向量取均值,得到标签特征向量集合{Ej|j<L且j∈N,E∈R1×C},其中j代表标签的类别,L为所有标签的数量,Ej代表标签j对应的特征向量。

2.根据权利要求1所述的一种基于现有图像语义分割模型的再优化训练方法,其特征在于步骤1具体实现如下:

针对语义分割数据集中带语义标签的彩色图像imgW×H×3进行预处理,包括图像的随机放缩裁切、水平翻转、滤波以及正则化的操作,得到图像矩阵imgw×h×3;针对语义分割书数据集中带语义标签的语义图像labelW×H进行随机放缩裁切、水平翻转的操作,得到语义标签矩阵labelw×h;将得到的图像矩阵imgw×h×3和语义标签矩阵labelw×h作为训练数据;其中W,H是原彩色图像和语义图像的长宽,其中w,h是预处理后彩色图像和语义图像的长宽。

3.根据权利要求1或2所述的一种基于现有图像语义分割模型的再优化训练方法,其特征在于步骤2中:edgew×h为bool型矩阵,其中True所对应的位置代表近边界像素的位置。

4.根据权利要求3所述的一种基于现有图像语义分割模型的再优化训练方法,其特征在于Backbone模型用于图像矩阵imgw×h×3和语义标签矩阵labelw×h进行特征提取,得到特征,包括ResNet模型、Xception模型或者轻量级的mobileNet模型。

5.根据权利要求4所述的一种基于现有图像语义分割模型的再优化训练方法,其特征在于使用空洞空间金字塔池化的方法对Backbone模型输出的特征实现多尺度特征融合,得到融合特征图;

通过双向线性插值恢复融合特征图的大小,得到恢复后的特征矩阵Featurew×h×C,其中C为特征向量长度(即特征矩阵的深度);进而提取特征矩阵Featurew×h×C中近边界像素(即edgew×h为True的位置)的语义特征数据集{(Feati,Labeli)|Feati∈R1×C,i<n且i∈N};其中,Labeli指代第i个近边界像素在语义标签矩阵labelw×h中对应的的标签编号;Feati是第i个近边界像素在特征矩阵Featurew×h×C中对应的特征向量。

6.根据权利要求4所述的一种基于现有图像语义分割模型的再优化训练方法的应用,其特征在于将经过再优化训练方法得到的再优化图像语义分割模型对图像进行语义分割,具体包括如下步骤:P1、对输入图像直接进行滤波与正则化处理,得到图像输入矩阵图像矩阵imgW×H×3;

P2、将图像输入矩阵输入到现有基础语义分割深度学习模型,获得语义预测矩阵PredictW×H×M,其中M为标签的类别数,矩阵坐标为(i,j,k)的元素值表示图像上坐标为(i,j)的像素属于第k个标签的概率;同时获得预测语义图像PredW×H;

P3、语义预测矩阵PredictW×H×M根据第三维(即标签的类别数)的元素值进行降序排列,取最大的N个值的下标(即对应标签)组成Top-N预测矩阵TopW×H×N,矩阵前两维坐标为(i,j)的第N个元素值,表示该图像位置最可能的标签情况,这里N可以根据实际效果调整;

P4、预测语义图像PredW×H根据步骤2的实现过程,即采用Canny边缘检测算子对预测语义图像进行边缘提取,得到语义边界图像,再基于语义边界图像的边界点向外延伸,得到语义近边界图像矩阵edgew×h,edgew×h为bool型矩阵,其中True所对应的位置代表近边界像素的位置;

P5、将预测矩阵TopW×H×N的近边缘像素(即edgew×h为True的位置)所以预测的5个标签分别与标签特征向量集合{Ej|j<L且j∈N,E∈R1×C}{Ej|j<L且j∈N,E∈R1×C}中对应标签的特征向量计算距离,将距离最小的标签覆盖预测语义图像PredW×H中对应位置,得到输出语义图像OutputW×H。