1.一种基于注意力模型的RGB-D图像视觉显著性检测方法,其特征在于包括训练阶段和测试阶段两个过程;
所述的训练阶段过程的具体步骤如下:
步骤1_1:选取N幅宽度为W且高度为H的原始的立体图像;然后将所有原始的立体图像的左视点图像、深度图像及真实人眼注视图构成训练集,将训练集中的第n幅左视点图像记为 将训练集中与 对应的深度图像记为{Dn(x,y)},将训练集中与对应的真实人眼注视图记为{Gn(x,y)};其中,N为正整数,N≥300,W和H均能够被2整除,n为正整数,n的初始值为1,1≤n≤N,1≤x≤W,1≤y≤H, 表示中坐标位置为(x,y)的像素点的像素值,Dn(x,y)表示{Dn(x,y)}中坐标位置为(x,y)的像素点的像素值,Gn(x,y)表示{Gn(x,y)}中坐标位置为(x,y)的像素点的像素值;
步骤1_2:构建卷积神经网络:该卷积神经网络采用双流模式来提取左视点图像和深度图像各自的分层特征,该卷积神经网络包括输入层、隐层和输出层,输入层包括RGB图输入层和深度图输入层,隐层包括RGB特征提取框架、深度特征提取框架和特征融合框架,RGB特征提取框架由第1个至第5个神经网络块、第1个至第3个上采样层组成,深度特征提取框架由第6个至第10个神经网络块、第4个至第6个上采样层组成,特征融合框架由第1个至第3个注意力模型、第11个神经网络块、第7个上采样层组成;其中,第1个至第7个上采样层的模式均为双线性插值,第1个上采样层和第4个上采样层的比例因子均为2,第2个上采样层、第3个上采样层、第5个上采样层、第6个上采样层、第7个上采样层的比例因子均为4;
对于RGB图输入层,其输入端接收一幅训练用左视点图像,其输出端输出训练用左视点图像给隐层;其中,要求训练用左视点图像的宽度为W且高度为H;
对于深度图输入层,其输入端接收RGB图输入层的输入端接收的训练用左视点图像对应的训练用深度图像,其输出端输出训练用深度图像给隐层;其中,训练用深度图像的宽度为W且高度为H;
对于RGB特征提取框架,第1个神经网络块的输入端接收RGB图输入层的输出端输出的训练用左视点图像,第1个神经网络块的输出端输出64幅宽度为 且高度为 的特征图,将输出的所有特征图构成的集合记为P1;第2个神经网络块的输入端接收P1中的所有特征图,第2个神经网络块的输出端输出128幅宽度为 且高度为 的特征图,将输出的所有特征图构成的集合记为P2;第3个神经网络块的输入端接收P2中的所有特征图,第3个神经网络块的输出端输出256幅宽度为 且高度为 的特征图,将输出的所有特征图构成的集合记为P3;第4个神经网络块的输入端接收P3中的所有特征图,第4个神经网络块的输出端输出
512幅宽度为 且高度为 的特征图,将输出的所有特征图构成的集合记为P4;第5个神经网络块的输入端接收P4中的所有特征图,第5个神经网络块的输出端输出512幅宽度为 且高度为 的特征图,将输出的所有特征图构成的集合记为P5;第1个上采样层的输入端接收P3中的所有特征图,第1个上采样层的输出端输出256幅宽度为 且高度为 的特征图,将输出的所有特征图构成的集合记为U1;第2个上采样层的输入端接收P4中的所有特征图,第2个上采样层的输出端输出512幅宽度为 且高度为 的特征图,将输出的所有特征图构成的集合记为U2;第3个上采样层的输入端接收P5中的所有特征图,第3个上采样层的输出端输出512幅宽度为 且高度为 的特征图,将输出的所有特征图构成的集合记为U3;
对于深度特征提取框架,第6个神经网络块的输入端接收深度图输入层的输出端输出的训练用深度图像,第6个神经网络块的输出端输出64幅宽度为 且高度为 的特征图,将输出的所有特征图构成的集合记为P6;第7个神经网络块的输入端接收P6中的所有特征图,第7个神经网络块的输出端输出128幅宽度为 且高度为 的特征图,将输出的所有特征图构成的集合记为P7;第8个神经网络块的输入端接收P7中的所有特征图,第8个神经网络块的输出端输出256幅宽度为 且高度为 的特征图,将输出的所有特征图构成的集合记为P8;第9个神经网络块的输入端接收P8中的所有特征图,第9个神经网络块的输出端输出
512幅宽度为 且高度为 的特征图,将输出的所有特征图构成的集合记为P9;第10个神经网络块的输入端接收P9中的所有特征图,第10个神经网络块的输出端输出512幅宽度为且高度为 的特征图,将输出的所有特征图构成的集合记为P10;第4个上采样层的输入端接收P8中的所有特征图,第4个上采样层的输出端输出256幅宽度为 且高度为 的特征图,将输出的所有特征图构成的集合记为U4;第5个上采样层的输入端接收P9中的所有特征图,第5个上采样层的输出端输出512幅宽度为 且高度为 的特征图,将输出的所有特征图构成的集合记为U5;第6个上采样层的输入端接收P10中的所有特征图,第6个上采样层的输出端输出512幅宽度为 且高度为 的特征图,将输出的所有特征图构成的集合记为U6;
对于特征融合框架,其接收U1中的所有特征图、U2中的所有特征图、U3中的所有特征图、U4中的所有特征图、U5中的所有特征图、U6中的所有特征图;对U1中的所有特征图和U4中的所有特征图进行Concatenate操作,Concatenate操作后输出512幅宽度为 且高度为 的特征图,将输出的所有特征图构成的集合记为C1;对U2中的所有特征图和U5中的所有特征图进行Concatenate操作,Concatenate操作后输出1024幅宽度为 且高度为 的特征图,将输出的所有特征图构成的集合记为C2;对U3中的所有特征图和U6中的所有特征图进行Concatenate操作,Concatenate操作后输出1024幅宽度为 且高度为 的特征图,将输出的所有特征图构成的集合记为C3;第1个注意力模型的输入端接收C1中的所有特征图,第1个注意力模型的输出端输出512幅宽度为 且高度为 的特征图,将输出的所有特征图构成的集合记为A1;第2个注意力模型的输入端接收C2中的所有特征图,第2个注意力模型的输出端输出512幅宽度为 且高度为 的特征图,将输出的所有特征图构成的集合记为A2;第3个注意力模型的输入端接收C3中的所有特征图,第3个注意力模型的输出端输出512幅宽度为 且高度为 的特征图,将输出的所有特征图构成的集合记为A3;对A1中的所有特征图、A2中的所有特征图、A3中的所有特征图进行Element-wise Summation操作,Element-wise Summation操作后输出512幅宽度为 且高度为 的特征图,将输出的所有特征图构成的集合记为E1;第11个神经网络块的输入端接收E1中的所有特征图,第11个神经网络块的输出端输出一幅宽度为 且高度为 的特征图;第7个上采样层的输入端接收第11个神经网络块的输出端输出的特征图,第7个上采样层的输出端输出一幅宽度为W且高度为H的特征图;
对于输出层,其输入端接收第7个上采样层的输出端输出的特征图,其输出端输出一幅训练用左视点图像对应的视觉显著性图像;其中,视觉显著性图像的宽度为W且高度为H;
步骤1_3:将训练集中的每幅左视点图像作为训练用左视点图像,并将训练集中每幅左视点图像对应的深度图像作为训练用深度图像,输入到卷积神经网络中进行训练,得到训练集中的每幅左视点图像对应的视觉显著性图像,将 对应的视觉显著性图像记为 其中, 表示 中坐标位置为(x,y)的像素点的像素值;
步骤1_4:计算训练集中的每幅左视点图像对应的视觉显著性图像与对应的真实人眼注视图之间的损失函数值,将 与{Gn(x,y)}之间的损失函数值记为
采用均方误差函数和线性相
关性系数函数联合作为损失函数获得;
步骤1_5:重复执行步骤1_3和步骤1_4共V次,得到卷积神经网络训练模型,并共得到N×V个损失函数值;然后从N×V个损失函数值中找出值最小的损失函数值;接着将值最小的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络训练模型的最优权值矢量和最优偏置项,对应记为Wbest和bbest;其中,V>1;
所述的测试阶段过程的具体步骤如下:
步骤2_1:令 表示待显著性检测的左视点图像,令 表示
对应的深度图像;其中,1≤x'≤W',1≤y'≤H',W'表示 的宽度,
H'表示 的高度, 表示 中坐标位置为(x',y')的像素点
的像素值, 表示 中坐标位置为(x',y')的像素点的像素值;
步骤2_2:将 和 输入到卷积神经网络训练模型中,并利用Wbest和
best
b 进行预测,得到 对应的视觉显著性预测图像,记为 其中,
表示 中坐标位置为(x',y')的像素点的像素值。
2.根据权利要求1所述的基于注意力模型的RGB-D图像视觉显著性检测方法,其特征在于所述的第1个神经网络块和所述的第6个神经网络块的结构相同,均由依次设置的第一卷积层、第一批标准化层、第一激活层、第二卷积层、第二批标准化层、第二激活层、第一最大池化层构成,第一卷积层和第二卷积层的卷积核大小均为3、卷积核个数均为64、步幅均为
1、填充均为1,第一激活层和第二激活层的激活函数均为ReLU,第一最大池化层的池化窗口大小为2、步幅为2;第一卷积层的输入端作为该神经网络块的输入端,第一批标准化层的输入端接收第一卷积层的输出端输出的所有特征图,第一激活层的输入端接收第一批标准化层的输出端输出的所有特征图,第二卷积层的输入端接收第一激活层的输出端输出的所有特征图,第二批标准化层的输入端接收第二卷积层的输出端输出的所有特征图,第二激活层的输入端接收第二批标准化层的输出端输出的所有特征图,第一最大池化层的输入端接收第二激活层的输出端输出的所有特征图,第一最大池化层的输出端作为该神经网络块的输出端;
所述的第2个神经网络块和所述的第7个神经网络块的结构相同,均由依次设置的第三卷积层、第三批标准化层、第三激活层、第四卷积层、第四批标准化层、第四激活层、第二最大池化层构成,第三卷积层和第四卷积层的卷积核大小均为3、卷积核个数均为128、步幅均为1、填充均为1,第三激活层和第四激活层的激活函数均为ReLU,第二最大池化层的池化窗口大小为2、步幅为2;第三卷积层的输入端作为该神经网络块的输入端,第三批标准化层的输入端接收第三卷积层的输出端输出的所有特征图,第三激活层的输入端接收第三批标准化层的输出端输出的所有特征图,第四卷积层的输入端接收第三激活层的输出端输出的所有特征图,第四批标准化层的输入端接收第四卷积层的输出端输出的所有特征图,第四激活层的输入端接收第四批标准化层的输出端输出的所有特征图,第二最大池化层的输入端接收第四激活层的输出端输出的所有特征图,第二最大池化层的输出端作为该神经网络块的输出端;
所述的第3个神经网络块和所述的第8个神经网络块的结构相同,均由依次设置的第五卷积层、第五批标准化层、第五激活层、第六卷积层、第六批标准化层、第六激活层、第七卷积层、第七批标准化层、第七激活层、第三最大池化层构成,第五卷积层、第六卷积层、第七卷积层的卷积核大小均为3、卷积核个数均为256、步幅均为1、填充均为1,第五激活层、第六激活层、第七激活层的激活函数均为ReLU,第三最大池化层的池化窗口大小为2、步幅为2;
第五卷积层的输入端作为该神经网络块的输入端,第五批标准化层的输入端接收第五卷积层的输出端输出的所有特征图,第五激活层的输入端接收第五批标准化层的输出端输出的所有特征图,第六卷积层的输入端接收第五激活层的输出端输出的所有特征图,第六批标准化层的输入端接收第六卷积层的输出端输出的所有特征图,第六激活层的输入端接收第六批标准化层的输出端输出的所有特征图,第七卷积层的输入端接收第六激活层的输出端输出的所有特征图,第七批标准化层的输入端接收第七卷积层的输出端输出的所有特征图,第七激活层的输入端接收第七批标准化层的输出端输出的所有特征图,第三最大池化层的输入端接收第七激活层的输出端输出的所有特征图,第三最大池化层的输出端作为该神经网络块的输出端;
所述的第4个神经网络块和所述的第9个神经网络块的结构相同,均由依次设置的第八卷积层、第八批标准化层、第八激活层、第九卷积层、第九批标准化层、第九激活层、第十卷积层、第十批标准化层、第十激活层、第四最大池化层构成,第八卷积层、第九卷积层、第十卷积层的卷积核大小均为3、卷积核个数均为512、步幅均为1、填充均为1,第八激活层、第九激活层、第十激活层的激活函数均为ReLU,第四最大池化层的池化窗口大小为2、步幅为2;
第八卷积层的输入端作为该神经网络块的输入端,第八批标准化层的输入端接收第八卷积层的输出端输出的所有特征图,第八激活层的输入端接收第八批标准化层的输出端输出的所有特征图,第九卷积层的输入端接收第八激活层的输出端输出的所有特征图,第九批标准化层的输入端接收第九卷积层的输出端输出的所有特征图,第九激活层的输入端接收第九批标准化层的输出端输出的所有特征图,第十卷积层的输入端接收第九激活层的输出端输出的所有特征图,第十批标准化层的输入端接收第十卷积层的输出端输出的所有特征图,第十激活层的输入端接收第十批标准化层的输出端输出的所有特征图,第四最大池化层的输入端接收第十激活层的输出端输出的所有特征图,第四最大池化层的输出端作为该神经网络块的输出端;
所述的第5个神经网络块和所述的第10个神经网络块的结构相同,均由依次设置的第十一卷积层、第十一批标准化层、第十一激活层、第十二卷积层、第十二批标准化层、第十二激活层、第十三卷积层、第十三批标准化层、第十三激活层构成,第十一卷积层、第十二卷积层、第十三卷积层的卷积核大小均为3、卷积核个数均为512、步幅均为1、填充均为1,第十一激活层、第十二激活层、第十三激活层的激活函数均为ReLU;第十一卷积层的输入端作为该神经网络块的输入端,第十一批标准化层的输入端接收第十一卷积层的输出端输出的所有特征图,第十一激活层的输入端接收第十一批标准化层的输出端输出的所有特征图,第十二卷积层的输入端接收第十一激活层的输出端输出的所有特征图,第十二批标准化层的输入端接收第十二卷积层的输出端输出的所有特征图,第十二激活层的输入端接收第十二批标准化层的输出端输出的所有特征图,第十三卷积层的输入端接收第十二激活层的输出端输出的所有特征图,第十三批标准化层的输入端接收第十三卷积层的输出端输出的所有特征图,第十三激活层的输入端接收第十三批标准化层的输出端输出的所有特征图,第十三激活层的输出端作为该神经网络块的输出端。
3.根据权利要求1或2所述的基于注意力模型的RGB-D图像视觉显著性检测方法,其特征在于所述的第11个神经网络块由依次设置的第十四卷积层、第十四批标准化层、第十四激活层、第十五卷积层、第十五批标准化层、第十五激活层、第十六卷积层、第十六批标准化层、第十六激活层构成,第十四卷积层、第十五卷积层、第十六卷积层的卷积核大小均为1、步幅均为1,第十四卷积层的卷积核个数为256,第十五卷积层的卷积核个数为64,第十六卷积层的卷积核个数为1,第十四激活层、第十五激活层的激活函数均为ReLU,第十六激活层的激活函数为Sigmoid;第十四卷积层的输入端作为该神经网络块的输入端,第十四批标准化层的输入端接收第十四卷积层的输出端输出的所有特征图,第十四激活层的输入端接收第十四批标准化层的输出端输出的所有特征图,第十五卷积层的输入端接收第十四激活层的输出端输出的所有特征图,第十五批标准化层的输入端接收第十五卷积层的输出端输出的所有特征图,第十五激活层的输入端接收第十五批标准化层的输出端输出的所有特征图,第十六卷积层的输入端接收第十五激活层的输出端输出的所有特征图,第十六批标准化层的输入端接收第十六卷积层的输出端输出的所有特征图,第十六激活层的输入端接收第十六批标准化层的输出端输出的所有特征图,第十六激活层的输出端作为该神经网络块的输出端。
4.根据权利要求3所述的基于注意力模型的RGB-D图像视觉显著性检测方法,其特征在于所述的第1个注意力模型、所述的第2个注意力模型、所述的第3个注意力模型的结构相同,均由第十七卷积层、第一残差块、第二残差块、第五最大池化层、第三残差块、第六最大池化层、第四残差块、第七最大池化层、第五残差块、第六残差块、第一上采样层、第七残差块、第八残差块、第二上采样层、第九残差块、第十残差块、第三上采样层、神经网络块、第十一残差块构成,第十七卷积层的卷积核大小为1、卷积核个数为512、步幅为1,所有残差块均采用ResNet50中的残差块,所有残差块的输入通道数量和输出通道数量均为512个,第五最大池化层、第六最大池化层、第七最大池化层的池化窗口大小均为3、步幅均为2、填充均为
1,第一上采样层、第二上采样层、第三上采样层的模式均为双线性插值、比例因子均为2;第十七卷积层的输入端作为该注意力模型的输入端,第一残差块的输入端接收第十七卷积层的输出端输出的所有特征图,第二残差块的输入端接收第一残差块的输出端输出的所有特征图,第五最大池化层的输入端接收第二残差块的输出端输出的所有特征图,第三残差块的输入端接收第五最大池化层的输出端输出的所有特征图,第六最大池化层的输入端接收第三残差块的输出端输出的所有特征图,第四残差块的输入端接收第六最大池化层的输出端输出的所有特征图,第七最大池化层的输入端接收第四残差块的输出端输出的所有特征图,第五残差块的输入端接收第七最大池化层的输出端输出的所有特征图,第六残差块的输入端接收第五残差块的输出端输出的所有特征图,第一上采样层的输入端接收第六残差块的输出端输出的所有特征图,第七残差块的输入端接收第四残差块的输出端输出的所有特征图,对第七残差块的输出端输出的所有特征图和第一上采样层的输出端输出的所有特征图进行Element-wise Summation操作,并将Element-wise Summation操作后得到的所有特征图输入到第八残差块的输入端,第二上采样层的输入端接收第八残差块的输出端输出的所有特征图,第九残差块的输入端接收第三残差块的输出端输出的所有特征图,对第九残差块的输出端输出的所有特征图和第二上采样层的输出端输出的所有特征图进行Element-wise Summation操作,并将Element-wise Summation操作后得到的所有特征图输入到第十残差块的输入端,第三上采样层的输入端接收第十残差块的输出端输出的所有特征图,神经网络块的输入端接收第三上采样层的输出端输出的所有特征图,对第二残差块的输出端输出的所有特征图和神经网络块的输出端输出的所有特征图进行内积操作,再对内积操作后得到的所有特征图和第二残差块的输出端输出的所有特征图进行Element-wise Summation操作,并将Element-wise Summation操作后得到的所有特征图输入到第十一残差块的输入端,第十一残差块的输出端为该注意力模型的输出端。
5.根据权利要求4所述的基于注意力模型的RGB-D图像视觉显著性检测方法,其特征在于3个注意力模型中的所述的神经网络块由依次设置的第十七批标准化层、第十七激活层、第十八卷积层、第十八批标准化层、第十八激活层、第十九卷积层、第十九激活层构成,第十七激活层、第十八激活层的激活函数均为ReLU,第十九激活层的激活函数为Sigmoid,第十八卷积层、第十九卷积层的卷积核大小均为1、卷积核个数均为512、步幅均为1;第十七批标准化层的输入端为神经网络块的输入端,第十七激活层的输入端接收第十七批标准化层的输出端输出的所有特征图,第十八卷积层的输入端接收第十七激活层的输出端输出的所有特征图,第十八批标准化层的输入端接收第十八卷积层的输出端输出的所有特征图,第十八激活层的输入端接收第十八批标准化层的输出端输出的所有特征图,第十九卷积层的输入端接收第十八激活层的输出端输出的所有特征图,第十九激活层的输入端接收第十九卷积层的输出端输出的所有特征图,第十九激活层的输出端为神经网络块的输出端。