欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2021114810822
申请人: 重庆邮电大学
专利类型:发明专利
专利状态:授权未缴费
专利领域: 计算;推算;计数
更新日期:2025-06-16
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于表观特征和空间约束的客体视域估计方法,其特征在于,所述方法包括:获取含有待估计客体的原始场景图像,将该场景图像输入到训练好的客体视域估计模型中,得到客体视域估计结果;客体视域估计模型包括头部显著性检测网络、双目注视方向场预测网络以及FRNet网络;

对客体视域估计模型进行训练的过程包括:S1:获取样本集合,根据样本集合建立场景数据集,对场景数据集中的数据进行预处理;对预处理后的场景数据集进行划分,得到训练数据集和测试数据集;获取的样本集合为包含客体头部图像的样本集合;

S2:将训练数据集输入到头部显著性检测网络中,根据输入图像的表观特征提取客体的显著性头部图像、客体的双目图像以及客体的双目位置坐标;

S3:采用双目注视方向场预测网络学习客体的显著性头部图像和双目图像之间的空间约束关系,根据该空间约束关系以及客体的双目位置坐标得到客体的双目注视方向场特征图;

S4:将双目注视方向场特征图通过基于通道维度相连接的方式与初始图像进行特征图拼接,将拼接后的特征图输入到FRNet网络,得到客体的视域灰度图像表征;

S5:将客体的视域灰度图像表征与原始图像的像素融合,得到客体视域估计结果;

S6:根据客体视域估计结果计算模型的损失函数;

S7:将训练集中的数据输入到模型中,不断调整模型的参数,当损失函数取值最小时完成模型的训练;将测试数据集输入到训练好的模型中用于模型的验证。

2.根据权利要求1所述的一种基于表观特征和空间约束的客体视域估计方法,其特征在于,对数据集中的图像进行预处理的过程包括:对数据集中的图像进行BM3D算法去噪、直方图均衡化、双线性插值缩放、随机水平翻转、像数值归一化以及像数值标准化操作;将场景数据集通过7:3的比例随机划分成训练数据集和测试数据集。

3.根据权利要求1所述的一种基于表观特征和空间约束的客体视域估计方法,其特征在于,采用头部显著性检测网络对数据进行处理的过程包括:S21:采用单级的人脸检测网络Retinaface对训练集中的场景数据进行处理,生成场景中客体的头部图像以及客体的双目位置坐标;

2

S22:将头部图像输入到U‑CASNet模块中,生成显著性头部图像;

S23:基于双目位置坐标和三庭五眼几何空间关系裁剪出25×45分辨率大小的左、右眼图像,裁剪出的左、右眼图像为客体的双目图像。

4.根据权利要求3所述的一种基于表观特征和空间约束的客体视域估计方法,其特征2

在于,采用U‑CASNet模块对头部图像进行处理的过程包括:2

S221:提取头部图像的特征图,将头部图像特征图输入到两级U型嵌套的U‑CASNet模块中,生成6个不同分辨率大小的显著性概率特征图;

S222:采用1×1卷积层和Sigmoid函数跟随的级联操作将各个显著性概率特征图进行特征融合,得到最终的显著性概率特征图;

S223:将最终的显著性概率特征图与初始的头部图像基于像素相乘操作生成显著性头部图像。

5.根据权利要求4所述的一种基于表观特征和空间约束的客体视域估计方法,其特征2

在于,U‑CASNet模块包括主模块和次模块;主模块由残差子块RSU‑L(Cin,M,Cout)通过U型嵌套堆叠形成,该结构从浅层和深层分别捕获局部表观特征信息和不同尺度的全局表观特征信息;次模块由6个CAM通道注意力模块并行构成,每个CAM模块并行添加到嵌套结构中每一层生成的显著性概率特征图之前,该模块通过全局平均池化和最大池化操作对每一层生成的特征图的不同通道进行注意力权重赋值,使得最终生成的显著性概率特征图具有更好的全局与细节的显著特征。

6.根据权利要求1所述的一种基于表观特征和空间约束的客体视域估计方法,其特征在于,采用双目注视方向场预测网络学习客体的显著性头部图像和双目图像之间的空间约束关系,根据该空间约束关系以及客体的双目位置坐标得到客体的双目注视方向场特征图的过程包括:双目注视方向场预测网络采用两阶段处理方式:在第一阶段,使用三个深度残差网络分别提取出显著性头部图像和双目图像的特征图,将对应的特征图通过赋予不同的空间约束权重后输入到三层MLP网络中,将对应的特征图映射成二维空间中的方向向量;在第二阶段,将维度为2的方向向量与初始图像大小相同的灰度图进行特征融合筛选出粗粒度的注视方向场区域,并以双目位置作为视场出发点,进行注视方向场的细粒度调整,生成最后的双目注视方向场。

7.根据权利要求6所述的一种基于表观特征和空间约束的客体视域估计方法,其特征在于,动态双目注视方向场的公式表示为:其中,Sim(P,γ)表示生成的双目视场概率图,点P表示视域中心值坐标,γ表示控制视场的锥形大小,Sim(Pl)和Sim(Pr)分别表示左眼和右眼对应的视场概率图,β表示客体头部图像中是否存在单目的情况。

8.根据权利要求1所述的一种基于表观特征和空间约束的客体视域估计方法,其特征在于,采用FRNet网络对客体的双目注视方向场特征图与初始图像拼接后的图像进行处理的过程包括:

S51:将左、右眼注视方向场特征图与同尺寸大小的3通道输入原图以通道维度相拼接的方式生成5通道特征图;

S52:将生成的5通道特征图输入到FcaNet网络的Stem主干中进行初次的表观特征提取,通过卷积、批量归一化以及Relu激活操作将输入特征图的分辨率下采样到原始图像的

1/4,并将通道数增加到64维;

S53:将生成的特征图送入到FcaNet的主体网络中进行高分辨率表观特征的学习;通过主体网络的第一阶段进行特征的提取,该阶段包含了4个线性变换FcaBlock残差模块,生成了256×56×56的特征图;将该特征图通过2,3,4阶段中的分辨率并行卷积模块和多分辨率融合模块进行不同分辨率特征之间的信息交换与融合,生成最终的4个不同分辨率大小的特征图,并将尺寸为32×56×56的特征图作为客体视域的隐式表征;

S54:将生成的32×56×56大小的特征图通过两层2D卷积进行通道的降维,得到1×56×56的特征图,最后通过Sigmoid函数将特征图中的像素值映射到[0,1],生成客体视域灰度图像表征。

9.根据权利要求1所述的一种基于表观特征和空间约束的客体视域估计方法,其特征在于,将客体视域灰度图像表征映射到初始图像中的过程包括:将灰度图像表征中的像素值转换到[0,255]的区域内,采用三张灰度图像表征堆叠的方式增加相应的通道维度;通过双线性插值的方式将灰度图像表征调整到对应输入图像的尺寸;将灰度图像表征和初始图像的像素值通过8:2的比例融合得到预测结果。

10.根据权利要求1所述的一种基于表观特征和空间约束的客体视域估计方法,其特征在于,模型的损失函数为:

其中,λ表示平衡双目注视方向场预测阶段和客体视域估计阶段的损失权重,Mi和 分别表示含有真实视域的灰度图像表征和含有预测视域的灰度图像表征中的每个像素值,N表示灰度图像表征的像素大小56×56,d表示客体的真实注视方向, 表示基于模型生成的预测注视方向。