欢迎来到知嘟嘟! 联系电话:13336804447 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13336804447
知嘟嘟经纪人
收藏
专利号: 202011552183X
申请人: 重庆理工大学
专利类型:发明专利
专利状态:已下证
专利领域: 电通信技术
更新日期:2024-04-28
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于深度学习的VVC帧内快速编码方法,其特征在于,包括如下步骤:S1、在VVC编码过程中,获取亮度编码块及量化参数;

S2、将亮度编码块及量化参数输入到考虑非对称卷积和注意力感知的深度学习模型中,得到预测向量,以各划分模式为最优快速划分模式的预测概率作为预测向量中的元素;

S3、基于预测向量确定保留的划分模式;预测向量p={p0,p1,p2,p3,p4,p5}表示划分模式列表ML={NS,QT,HB,VB,HT,VT}中各划分模式为最优模式的预测概率,各模式预测概率之和为1;步骤S3包括:

S301、根据p对ML进行降序排序:(L,p′)=Sort(ML,p)

式中,L和p′分别为排序后的划分模式列表和预测向量,Sort(·)为降序排序算子;

S302、根据保留模式数目值n,基于下式确定保留的快速划分模式:L′={Li|1≤i≤n}

式中,Li为L中第i个元素,L′为保留的快速划分模式组成的列表;

其中,保留模式数目值n的计算方法如下:基于下式逐项累加p′,并根据阈值 决定保留模式数目值n:式中,x为可保留模式数量,p′k为p′中第k个元素;

基于下式求解阈值

式中,ω为平衡因子,μ,a,b,c,d均为与训练模型和序列相关的参数,通过编码序列第一帧获取;

S4、基于保留划分模式进行VVC帧内快速划分。

2.如权利要求1所述的基于深度学习的VVC帧内快速编码方法,其特征在于,所述考虑非对称卷积和注意力感知的深度学习模型包括数据输入模块、数据预处理模块、特征提取模块、特征拟合模块以及预测输出模块,其中:数据输入模块用于读取亮度编码块及量化参数;

数据预处理模块用于将亮度编码块通过三次插值的方式缩放,并进行零均值归一化处理;

特征提取模块包括非对称卷积单元及注意力感知单元;非对称卷积单元包括第一卷积分支B1、第二卷积分支B2以及第三卷积分支B3,第一分支B1级联了三层卷积层,分别为B1L1、B1L2以及B1L3,第二分支B2级联了三层卷积层,分别为B2L1、B2L2以及B2L3,第三分支B3级联了三层卷积层,分别为B3L1、B3L2以及B3L3;注意力感知单元包括九个注意力子单元,分别为A11、A12、A13、A21、A22、A23、A31、A32以及A33;注意力感知单元包括了感知子单元,感知子单元包括第一输入层、第一隐藏层和第一输出层,第一输入层用于将归一化处理后的亮度编码块展开为一维向量并拼接量化参数组成输入向量AV1,第一隐藏层为级联的两层全连接层,用于连接层间的结果拼接量化参数组成中间向量AV2,第一输出层用于输出softmax函数激活后的向量AV3;卷积层B1L1输入为归一化处理后的亮度编码块,输出为卷积结果与A11输出结果的乘积,卷积层B1L2输入为B1L1的输出,输出为卷积结果与A12输出结果的乘积,卷积层B1L3输入为B1L2的输出,输出为卷积结果与A13输出结果的乘积,卷积层B2L1输入为预处理LCB,输出为卷积结果与A21输出结果的乘积,卷积层B2L2输入为B2L1的输出,输出为卷积结果与A22输出结果的乘积,卷积层B2L3输入为B2L2的输出,输出为卷积结果与A23输出结果的乘积,卷积层B3L1输入为预处理LCB,输出为卷积结果与A31输出结果的乘积,卷积层B3L2输入为B3L1的输出,输出为卷积结果与A32输出结果的乘积,卷积层B3L3输入为B3L2的输出,输出为卷积结果与A33输出结果的乘积;

特征拟合模块包括第二输入层、第二隐藏层、第二输出层,第二输入层用于将B1L3、B2L3以及B3L3的输出展开拼接为一维向量,并拼接量化参数组成输入向量LV1,第二隐藏层为级联的三层全连接层,用于连接层间的结果分别拼接量化参数组成中间向量LV2和LV3,第二输出层用于输出softmax函数激活的输出向量LV4;

预测输出模块用于将激活后的输出向量LV4作为预测向量输出。

3.如权利要求1所述的基于深度学习的VVC帧内快速编码方法,其特征在于,对非对称卷积和注意力感知的深度学习模型的训练方法包括:通过VVC参考软件VTM对部分序列进行正常编码,保存亮度编码块及量化参数,构建数据集,利用数据集训对非对称卷积和注意力感知的深度学习模型进行训练。

4.如权利要求3所述的基于深度学习的VVC帧内快速编码方法,其特征在于,通过VVC参考软件VTM对部分序列进行正常编码时,编码配置为标准测试条件下的全帧内编码;部分序列为标准测试序列中A1、A2、B、C、D和E类的典型序列,包括Campfire、ParkRunning3、Cactus、BQMall、BasketballPass和Johnny。

5.如权利要求3所述的基于深度学习的VVC帧内快速编码方法,其特征在于,训练过程采用10倍交叉验证进行测试;epoch次数为200;batch大小为16;学习率初始值为0.001,采用指数衰减,衰减率0.95,衰减步长10;优化器采用随机梯度下降;损失函数为模型输出与标签的交叉熵。