1.一种基于非对称深度卷积神经网络的多视角深度预测方法,包括如下步骤:S100、定义第一图像序列,其中,所述第一图像序列具备如下特征:所述第一图像序列不限制其中的图像数量、所述图像序列中的各个图像的分辨率是否相同不受限制、所述图像序列中的图像至少包括针对某一确定场景的多张不同视角的图像;
S200、任意选取所述第一图像序列中的一张图像作为所述确定场景中的参考图像;
S300、计算出图像序列中其余图像与参考图像的重叠率,并选取重叠率最高的N张作为所有的相邻图像,N最小能够取1;然后,对于N张相邻图像中的每一张相邻图像,根据参考图像对相邻图像在每个视差级别 上进行WarpAffine仿射变换,并将仿射变换后的相邻图像存储在一个平面扫描卷中,以此构造出包括有 张仿射变换后的相邻图像的平面扫描卷;
S400、构建第一神经网络,所述第一神经网络包括由前向后依次连接的:特征融合模块、第一视差预测核心模块、特征聚合模块,其中:特征融合模块,用于将参考图像和所述平面扫描卷中的仿射变换后的相邻图像的每一视差级别的特征融合并输出融合后的特征图,其中,所述特征融合模块包括由前向后依次连接的四个5*5卷积层;
第一视差预测核心模块,用于根据前一个模块所输出的融合后的特征图进行特征提取和对视差信息进行预测,其中,所述第一视差预测核心模块包括由前向后依次连接的两个卷积层,其中一个卷积层用于特征提取,另一个卷积层用于对视差信息进行预测以预测每个视差级别上的信息;
特征聚合模块,用于利用最大池化对前一个模块所预测的每个视差级别上的信息进行聚合以得到深度图,其中,所述特征聚合模块包括依次连接的一个池化层和两个卷积层,经过所述两个卷积层生成聚合后的特征图,所述聚合后的特征图经过全连通条件随机场优化得到1通道的视差图,求倒数得到所述确定场景中的所述参考图像的深度图;
S500、对于所述第一神经网络,将学习率设置为10-5,限制L2范式不超过1.0,并且:按照上述步骤S100所定义的第一图像序列,在第一数据集上选取多张图像作为所述第一图像序列,然后分别按照上述步骤S200、S300得到对应的参考图像、平面扫描卷,并以该参考图像、平面扫描卷作为输入以预先训练所述第一神经网络;训练迭代320000次后,保存所述第一神经网络的模型参数;其中,该步骤使用自适应时刻估计法(Adam)迭代训练所述第一神经网络并保存模型参数,并且:训练第一神经网络所采用的损失函数的公式为:
其中,n为视差级别数目,y为真实值相对应的视差级别,x为一个视差级别的一组预测值;
S600、构建第二神经网络,所述第二神经网络为所述非对称深度卷积神经网络;并且,所述第二神经网络:原样采用第一神经网络中的特征融合模块和特征聚合模块,但采用第二视差预测核心模块替换所述第一神经网络中的第一视差预测核心模块,以此形成由前向后依次连接的:特征融合模块、第二视差预测核心模块、特征聚合模块,并且:其中,
所述第二视差预测核心模块由前向后依次为:第1至第6特征提取卷积块,第1至第5视差预测卷积块,且所述6个特征提取卷积块与5个视差预测卷积块之间的非对称使得所述第二神经网络构造为非对称深度卷积神经网络,其中,所述第二视差预测核心模块通过第1至第6特征提取卷积块进行特征提取,通过第1至第5视差预测卷积块对视差信息进行预测;
-6
S700、对于所述第二神经网络,将学习率设置为10 ,限制L2范式不超过0.1,利用步骤S500中所保存的第一神经网络的模型参数初始化第二神经网络,并且:按照上述步骤S100所定义的第一图像序列,在第二数据集上、以及在属于可选而非必选的第三数据集上,从中选取多张图像作为所述第一图像序列,然后分别按照上述步骤S200、S300得到对应的参考图像、平面扫描卷,并以该参考图像、平面扫描卷作为输入以用于训练所述第二神经网络,训练迭代320000次后,保存所述第二神经网络的模型参数;其中,该步骤使用自适应时刻估计法(Adam)迭代训练所述第二神经网络并保存模型参数,并且:训练第二神经网络所采用的损失函数的公式为:
其中,n为视差级别数目,y为真实值相对应的视差级别,x为一个视差级别的一组预测值;
S800、以待预测的另外某一确定场景的多张不同视角的图像作为第一图像序列,然后分别按照上述步骤S200、S300得到对应的参考图像、平面扫描卷,并以该参考图像、平面扫描卷作为输入,通过步骤S700训练所得的第二神经网络,求得该确定场景中的所述参考图像的深度图。
2.根据权利要求1所述的方法,其中,优选的,所述步骤S200中的视差级别通过如下方式确定:将所述第一图像序列输入三维重建COLMAP系统,利用三维重建COLMAP系统分别估计相机姿态和稀疏重建模型中各个特征之间的距离,最大的一个即为最大视差,以最大视差作为最高视差级别,并将最大视差等分,每一等份为一个视差级别 其中,所述稀疏重建模型是三维重建COLMAP系统根据其所接收的图像序列所包含的颜色和深度信息重建的点云模型;
所述各个特征则是所述点云模型中捕捉到的物体的特征,其通过不同深度下的物体所对应的点云来表征。
3.根据权利要求1所述的方法,其中,所述步骤S600中的第二神经网络还包括:第1至第3视差增强卷积块;
所述第二神经网络还通过第1至第3视差增强卷积块分别作用于第3至第5视差预测卷积块,以使得空间特征加倍并优化最终输出的预测结果:预测的每个视差级别上的信息。
4.根据权利要求1所述的方法,其中:
对于所述特征融合模块,其中的四个卷积层输出的特征图的通道数分别为:64,96,32,
4;
对于所述特征聚合模块,所述聚合后的特征图的通道数分别为400,100,所述特征聚合模块的两个卷积层最终生成100通道的聚合后的特征图。
5.根据权利要求1所述的方法,其中:
所述第一数据集、第二数据集和第三数据集分别为ImageNet,DeMoN和MVS-SYNTH数据集。
6.根据权利要求1所述的方法,其中:
所述第二数据集包括如下两类数据集中的任一或其组合:真实数据集、合成数据集;
第三数据集为针对第二数据集的合成数据集。
7.根据权利要求1所述的方法,其中:
对于第二视差预测核心模块,其中,第1和第2特征提取卷积块均由:由前向后的、依次连接的第一5*5卷积层、第二5*5卷积层构成,其中第2特征提取卷积块的第一个卷积层步长为2,第3至第6特征提取卷积块均由:由前向后的、依次连接的第一3*3卷积层、第二3*3卷积层构成,其中第一个卷积层步长为2。
8.根据权利要求1所述的方法,其中:
对于第二视差预测核心模块,其中,第1至第5视差预测卷积块均由:由前向后的、依次连接的一个上采样层、第一3*3卷积层、第二3*3卷积层构成。
9.根据权利要求3所述的方法,其中:
对于第二视差预测核心模块,其中,第1至第3视差增强卷积块均由:由前向后的、依次连接的一个3*3的卷积层和一个上采样层构成,并且:所述第1视差增强卷积块中的卷积层的输入来源于第2视差预测卷积块中的第二3*3卷积层的输出;
所述第1视差增强卷积块中的上采样层则进一步输出至第3视差预测卷积块中的第二
3*3卷积层;
所述第2视差增强卷积块中的卷积层的输入来源于第3视差预测卷积块中的第二3*3卷积层的输出;
所述第2视差增强卷积块中的上采样层则进一步输出至第4视差预测卷积块中的第二
3*3卷积层;
所述第3视差增强卷积块中的卷积层的输入来源于第4视差预测卷积块中的第二3*3卷积层的输出;
所述第3视差增强卷积块中的上采样层则进一步输出至第5视差预测卷积块中的第二
3*3卷积层。
10.根据权利要求3所述的方法,其中:
第1至第6特征提取卷积块输出的特征图的通道数分别为:600,800,1000,1000,1000,
1000;
第1至第5视差预测卷积块输出的特征图通道数分别为:1000,1000,800,600,800;
第1至第3视差增强卷积块输出的特征图的通道数分别为:100,100,100;
并且,
在输出相同大小特征图的特征提取卷积块和视差预测卷积块之间有跳跃连接结构,把特征提取卷积块的结构和视差预测的结果在通道维度上拼接在一起,包括:第1特征提取卷积块与第5视差预测卷积块之间有跳跃连接结构;
第2特征提取卷积块与第4视差预测卷积块之间有跳跃连接结构;
第3特征提取卷积块与第3视差预测卷积块之间有跳跃连接结构;
第4特征提取卷积块与第2视差预测卷积块之间有跳跃连接结构;
第5特征提取卷积块与第1视差预测卷积块之间有跳跃连接结构。