1.基于多模态学习的无参考合成视频质量评价方法,其特征在于,包括:S1:获取待评价的虚拟视点视频;
S2:基于光流估计将待评价的虚拟视点视频分解成若干个时空域的图像;
步骤S2中,基于光流估计将虚拟视点视频分解成空间域、垂直时域和水平时域三个时空域的图像;
其中,虚拟视点视频表示为宽度为W、高度为H、帧长为N的三维数据;
空间域的图像表示由N幅W×H大小的图像组成;
垂直时域的图像表示由W
水平时域的图像表示由H
通过如下步骤确定垂直时域和水平时域的图像位置和图像数量:S201:估计空间域中第1帧和第k帧的光流图、第k+1帧和第2k帧的光流图、第2k+1帧和第3k帧的光流图,依次类推得到若干张光流图;其中,k表示前后帧重复的自适应帧间隔阈值;
S202:计算每张光流图中的最大像素值,并基于各张光流图中最大像素值的坐标(x,y)分别定位垂直时域中第x张图像和水平时域中第y张图像的图像位置;
S203:基于空间域的图像数量N和自适应帧间隔阈值k确定垂直时域的图像数量WS3:将各个时空域的图像输入至预训练的卷积神经网络学习模型,提取虚拟视点视频的深度特征;
S4:将各个时空域的图像输入至经过训练的稀疏字典学习模型,提取虚拟视点视频的稀疏特征;
S5:基于虚拟视点视频的深度特征和稀疏特征进行加权回归,进而计算对应的虚拟视点质量评价分数作为待评价虚拟视点视频的质量评价结果;
步骤S5中,将深度特征和稀疏特征分别输入到各自的随机森林回归模型中,学习特征向量和视频主观分数之间的非线性映射,得到对应的深度质量分数和稀疏质量分数;然后基于深度质量分数和稀疏质量分数结合如下公式计算对应的虚拟视点质量评价分数;
Q
式中:Q
2.如权利要求1所述的基于多模态学习的无参考合成视频质量评价方法,其特征在于:步骤S3中,将预训练的ResNet-50网络作为预训练的卷积神经网络学习模型;
将空间域、垂直时域和水平时域的图像输入预训练的ResNet-50网络中,分别提取得到空间域的深度特征、垂直时域的深度特征和水平时域的深度特征。
3.如权利要求2所述的基于多模态学习的无参考合成视频质量评价方法,其特征在于:通过如下公式表示空间域的深度特征F式中:N、W
4.如权利要求1所述的基于多模态学习的无参考合成视频质量评价方法,其特征在于:步骤S4中,通过如下步骤训练稀疏字典学习模型:S401:获取自然视频作为训练样本;
S402:将训练样本分解成空间域、垂直时域和水平时域三个时空域的训练图像;
S403:分别将空间域、垂直时域和水平时域三个时空域的训练图像划分为图像块进行字典训练,得到空间域字典、垂直时域字典和水平时域字典并构成稀疏字典学习模型。
5.如权利要求4所述的基于多模态学习的无参考合成视频质量评价方法,其特征在于:步骤S403中,具体包括以下步骤:S401:将对应时空域的训练图像划分成图像块B,每个图像块B被重新排列成一维列向量{Bi|1≤i≤n},其中i为列方向的像素索引,n为图像块内的像素个数;然后由m列n维原子构成字典D;
式中:D表示对应时空域的字典,字典D受限于S402:固定图像块B,将字典D初始化为一个n×m的随机高斯矩阵;
S403:固定字典D,通过如下公式更新稀疏系数α;
式中:当公式趋近于图像块时,确定稀疏系数α;
S404:固定稀疏系数α,通过如下公式更新字典D;
S405:重复步骤S402至S404,直至稀疏字典学习模型收敛。
6.如权利要求4所述的基于多模态学习的无参考合成视频质量评价方法,其特征在于:步骤S4中,稀疏字典学习模型通过如下步骤提取虚拟视点视频的稀疏特征:S411:将空间域、垂直时域和水平时域三个时空域的图像输入至稀疏字典学习模型;
S412:将对应时空域的图像转换到灰度域并将图像划分成图像块;然后计算图像块的梯度得到对应的梯度块;
S413:通过稀疏编码算法结合对应时空域的字典提取稀疏系数,并基于稀疏系数计算梯度块的能量;然后基于各个梯度块的能量计算对应时空域中各帧图像的能量;
S414:基于对应时空域中各帧图像的能量计算各帧图像的图像特征;
S415:基于空间域、垂直时域和水平时域的图像数量结合对应时空域中各帧图像的图像特征,计算得到空间域的稀疏特征、垂直时域的稀疏特征和水平时域的稀疏特征。
7.如权利要求5所述的基于多模态学习的无参考合成视频质量评价方法,其特征在于:步骤S412中,通过将图像块输入梯度模板来获得梯度块,通过如下公式表示梯度模板:式中:g
步骤S413中,通过如下公式计算梯度块的能量:其中,
式中:E
通过如下公式计算第I帧图像的能量:
式中:E
步骤S414中,通过如下公式计算第I帧图像的图像特征:式中:f
步骤S414中,通过如下公式计算空间域的稀疏特征f式中:
t