1.一种基于人类视觉效应的视频质量评价方法,其特征在于包括如下步骤:步骤(1).通过构建的深度特征提取网络对内容感知特征的提取;
步骤(2).上下文注意机制建模;
步骤(3).长期依赖关系建模;
步骤(4).视频质量预测;
步骤(1)具体实现如下:
1‑1.构建深度特征提取网络,所述的深度特征提取网络基于ResNet50模型构建,所述的ResNet50模型由49个卷积层和1个全连接层组成,卷积核以及步幅大小均由PyTorch中的nn.AdaptiveAvgPool2d自适应设置,所述的nn.AdaptiveAvgPool2d的输出设置为1×1;
1‑2.对深度特征提取网络进行训练,所述的深度特征提取网络在ImageNet可视化数据集上进行训练,使其对形变特征敏感,进而实现对图像内容的感知功能;此过程的初始学习率为0.00001,数据迭代次数设置为2000且训练批次大小为16;
1‑3.预设视频具有T帧,预训练的深度特征提取网络的输入为当前帧It,t=1,2,…,T,所述的预训练深度特征提取网络输出是当前帧It对应的深度语义特征图Mt:Mt=CNN(It) (1)
1‑4.分别对特征图Mt进行空间全局平均池化GPmean和空间全局标准差池化GPstd,所述的mean空间全局平均池化提取特征向量ft :mean
ft =GPmean(Mt) (2)std
所述的空间全局标准差池化提取特征向量ft :std
ft =GPstd(Mt) (3)mean std
最后将ft 和ft concat起来作为内容感知特征ft:其中, 是串联运算符,ft的长度是2C,维数是4096;
1‑5.将图像的内容感知特征ft输入全连接层,将所述的ft维数从4096缩减为128,降维后得到的特征xt:xt=Wfxft+bfx (5)其中,Wfx表示缩小比例,bfx表示偏差项;
步骤(2)具体实现如下:
2‑1.取降维后的特征xt与前面nfps帧的特征信息Xp,以及后面nfps帧的特征信息Xa;
其中nfps表示每秒传输帧数;据此得到一个包含上下文内容特征的新矩阵
2‑2.将 输入到全连接层中,将所述的 进行上下文内容特征信息融合,得到结合上*下文信息的内容特征xt(t=1,2,...,T):* *
其中,Wfx表示缩小比例,bfx表示偏差项;
2‑3.新建一个GRU网络充当一个神经元注意机制,设置单层GRU网络的隐含尺寸为32,* *卷积核为3×3×32;GRU网络的隐含状态初始值设为h0 ,根据当前时刻的内容特征xt 和之*前时刻的GRU隐含状态ht‑1计算当前时刻的GRU网络隐含状态:* * *
ht=GRU(xt,ht‑1) (9)*
此外,用卷积去映射隐含状态ht得到一个重要性矩阵,再使用sigmoid函数将重要性矩阵的各个元素值归一化到[0,1],得到注意力映射at:a
其中,σ()表示sigmoid函数,w表示卷积核;
步骤(3)具体实现如下:
3‑1.为了建立集成上下文信息的内容感知特征与帧级质量的长期依赖关系,将降维后的特征xt作为GRU网络的输入;将单层GRU网络的隐含尺寸设为32,卷积核为3×3×32;GRU网络的隐含状态初始值设为h0,根据当前时刻的xt和之前时刻的GRU隐含状态ht‑1计算当前时刻的GRU网络隐含状态ht:ht=GRU(xt,ht‑1) (11)
3‑2.将注意力模块进行感知转移:gt=at⊙ht (12)其中,gt表示感知转移;
3‑3.通过增加一个FC层预测每一帧的质量得分qt:qt=whqgt+bhq (13)其中,whq表示权重,bhq表示偏差;
步骤(4)具体实现如下:
4‑1.为了模拟人类对低质量事件的不耐受性,将第t帧的记忆质量元素It定义为前几帧的最低质量分数:lt=qt,for t=1
其中,Vprev={max(1,t‑τ),...,t‑2,t‑1}是所考虑帧的索引集,τ是与时间持续时间相关的超参数;
4‑2.考虑到受试者对质量下降反应剧烈,但对质量改善反应迟钝的事实,对第t帧构造了当前质量元素mt,并对接下来几帧进行加权得分,将超过设定阈值的权重分配给质量低k于指定阈值的帧;具体地说通过一个可微的SoftMin函数确定权重Wt;
k
其中,Vnext={t,t+1,…,min(t+τ,T)}表示相关帧的索引集,wt是定义的权重参数;
4‑3.将当前质量元素和记忆质量元素线性组合来得到主观的帧质量分数qt′;最后,通过近似分数的时间全局平均池化GAP计算总体视频质量Q:qt′=γlt+(1‑γ)mt (17)其中,γ是一个超参数,用于平衡记忆质量元素和当前质量元素对近似分数的影响。