欢迎来到知嘟嘟! 联系电话:13336804447 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13336804447
知嘟嘟经纪人
收藏
专利号: 2019102054193
申请人: 西安电子科技大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-02-26
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于卷积门控循环神经单元的视频目标检测方法,其特征在于,包括有如下步骤:

(1)相关数据集处理和网络预训练:选用大规模视频目标检测数据集,将数据集中每一视频片段拆分的帧作为一个视频序列,按照一定比例将选用的数据集分为训练集和验证集;同时利用大规模图像数据集训练好分类网络;利用用于光流学习的数据集训练,得到训练充分的光流学习网络;

(2)固定窗口内选取参考帧:在每个视频序列中,以间隔W为选帧范围,在当前帧It前后各选取n/2帧作为参考帧Kt‑n/2~Kt+n/2,将选取的当前帧及参考帧作为视频目标检测网络模型输入;

视频目标检测网络模型具体由以下步骤所提及的基础特征提取网络、光流学习网络、卷积门控循环神经单元、嵌入网络、候选区域网络、分类和回归网络组成;

(3)当前帧特征提取:当前帧选择大规模图像数据集表现优异的分类网络作为基础特征提取网络,去除该分类网络的分类器部分后用于当前帧特征提取,得到当前帧特征Ft;

(4)基于当前帧特征估计参考帧特征:将参考帧及当前帧沿通道方向拼接送入充分训练的光流学习网络,得到与当前帧特征Ft近似尺寸的参考帧特征结果St‑n/2~St+n/2;结合参考帧特征结果St‑n/2~St+n/2将当前帧特征Ft通过特征传播得到参考帧的估计特征Et‑n/2~Et+n/2;

(5)基于卷积门控循环神经单元的时序上下文特征学习:引入能同时学习图像空间位置关系和连续帧之间时序关系的卷积门控循环神经单元,用该卷积门控循环神经单元学习参考帧特征和当前帧特征时序之间的关联性,将参考帧估计特征Et‑n/2~Et+n/2和当前帧特征Ft按时序送入步长为n+1的卷积门控循环神经单元,得到含有上下文特征的时序相关特征Ct‑n/2~Ct+n/2;

(6)时序相关特征加权融合:引入一个由3层全连接层构成的嵌入网络,改进加权融合方式,将参考帧估计特征Et‑n/2~Et+n/2和当前帧特征Ft送入嵌入网络,并通过归一化和Softmax方法学习得到融合权重系数αt‑n/2~αt‑n/2,结合时序相关特征Ct‑n/2~Ct+n/2,通过加权融合公式,得到时序融合特征Rt;

(7)目标候选框提取:将得到的时序融合特征Rt送入候选区域网络RPN中得到当前帧对应候选目标区域,按置信度排序初步筛选当前帧目标候选区域,然后采用非极大值抑制NMS方法筛选后得到感兴趣区域ROIs,感兴趣区域ROIs是预测的目标框位置;

(8)目标分类和位置回归:将感兴趣区域ROIs按比例映射在时序融合特征Rt上,即可在时序融合特征Rt上的感兴趣区域ROIs中通过分类网络和回归网络分别计算得到当前帧各目标的类别和在当前帧It中的边框位置;

(9)训练并得到视频目标检测网络模型:在训练集上执行步骤(2)~(8),选择合适的优化算法训练整个视频目标检测网络,反复迭代直到收敛使网络中的各参数稳定且最优,最终得到能同时识别C个类别且计算其位置的视频目标检测网络模型;

(10)验证评估模型效果:在验证集上测试步骤(9)得到的视频目标检测网络模型,通过求解平均精度均值mAP评估模型效果。

2.根据权利要求1所述的基于卷积门控循环神经单元的视频目标检测方法,其特征在于,步骤(4)中所述的基于当前帧特征估计参考帧特征,具体包括如下步骤:

4.1)将参考帧Kt‑n/2~Kt+n/2与当前帧It沿通道方向拼接作为光流学习网络的输入,用公式表示为Si=M(Ki,It);其中,i表示时刻范围t‑n/2~t+n/2,Si代表第i时刻光流学习网络的结果,M表示光流学习网络,Ki为第i个参考帧,It为当前帧;

4.2)参考帧Ki通过光流学习网络得到的结果Si中每个像素位置是相对于当前帧各像素位置的位移δv,采用仿射变换可以得到在当前帧Ft上的位置u+δv;

4.3)得到位置u+δv后,通过双线性插值公式可以得到参考帧特征传播后的结果Ei,具体公式如下:其中Ei为参考帧通过特征传播后得到的特征,w为当前帧Ft中各像素位置,G为双线性插值函数,Ft为当前帧提取的特征。

3.根据权利要求1所述的基于卷积门控循环神经单元的视频目标检测方法,其特征在于,步骤(5)所述的基于卷积门控循环神经单元的时序上下文特征学习,包括如下详细步骤:

5.1)将参考帧估计特征Et‑n/2~Et+n/2和当前帧特征Ft按照时序排序后,作为卷积门控循环神经单元的输入记作H;

5.2)其中卷积门控循环神经单元具体计算公式如下:

zt=σ(WZ*Ht+Uz*Mt‑1),

rt=σ(Wr*Ht+Ur*Mt‑1),

其中Ht为当前时刻网络的输入特征图,Mt‑1为上一时刻网络学习到的带有记忆的特征图,网络学习初始值设定为当前帧特征Ft;*代表卷积操作,⊙代表元素乘操作,σ为sigmoid激活函数,LReLU为LeakyReLU激活函数,Wz,Uz,Wr,Ur,W,U为网络需学习的卷积核参数,初始化时采用正态分布随机初始化;rt为重置门控制按位置忽略Mt‑1信息的程度,取值范围为[0,1]; 为候选隐藏状态,取值范围为[‑∞,+∞];Zt为更新门,取值范围为[0,1],控制此刻 带来信息量的多少;

5.3)若采用单向卷积门控循环神经单元,网络输出即为带有当前时刻前信息的特征Ct‑n/2~Ct+n/2;若采用双向卷积门控循环神经单元,则网络输出需经过1*1卷积核进行降维得到与网络后端分类和回归所需维度一致的带有时序上下文信息的时序相关特征Ct‑n/2~Ct+n/2。

4.根据权利要求1所述的基于卷积门控循环神经单元的视频目标检测方法,其特征在于,步骤(6)所述的时序相关特征加权融合中包括以下步骤:

6.1)将参考帧估计特征Et‑n/2~Et+n/2和当前帧特征Ft送入由三层卷积网络构成的嵌入网络学习各像素位置的权重Dt‑n/2~Dt+n/2和Dt;

6.2)将参考帧估计特征Et‑n/2~Et+n/2对应的权重Dt‑n/2~Dt+n/2以及当前帧特征Ft对应的权重Dt各自按通道做L2正则化,将二者结果做元素乘法后通过Softmax得到融合权重系数αt‑n/2~αt+n/2;

6.3)加权融合公式为:

其中t为当前时刻,Rt为时序融合特征,Ct为当前帧通过卷积门控循环神经单元学习到的特征,αi为融合权重系数,Ci为参考帧通过卷积门控循环神经单元学习到的特征。