欢迎来到知嘟嘟! 联系电话:13336804447 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13336804447
知嘟嘟经纪人
收藏
专利号: 2022104015532
申请人: 安庆师范大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2025-12-24
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.基于残差收缩结构和非局部注意力的行为检测方法,其特征在于,包括以下步骤:(1)基于残差收缩结构的特征提取子网,具体过程如下:

(11)将输入特征X通过两次批标准化、ReLU激活函数及卷积得到的特征x作为残差收缩模块输入向量,并经过绝对值和全局均值池化操作将其简化为一维向量Xh,w,l,c:xh,w,l,c=GAP(|ReLU(BN(Conv(X)))|),式中,ReLU(·)表示ReLU激活函数,BN(·)表示批标准化,GAP(·)表示全局均值池化,h,w,l,c分别代表特征图的长、宽、帧长度和通道数;

(12)将简化后的向量特征Xh,w,l,c分别送入阈值收缩系数计算分支和通道均值特征计算支路,在阈值收缩系数计算分支中,利用两层全连接层计算Xh,w,l,c的各通道的阈值收缩系数:αc=δ(FC(FC(xh,w,l,c))),式中,FC(·)为全连接层,δ(·)为Sigmoid激活函数,其中αc∈(0,1);

在通道均值特征计算支路中,分别计算各通道特征的平均值:βc=average(|xh,w,l,c|),式中,average(·)表示求平均值;获取阈值收缩系数以及特征均值后,各通道特征的收缩阈值τc=αc·βc(c∈[1,3]);通过对每个通道计算收缩阈值,可以获得输入向量x的收缩阈值向量τ=(τ1,τ2,τ3);

(13)将计算的收缩阈值向量τ对输入向量x进行软阈值化:

xs=soft(x,τ)=sign(x)max{|x|-τ,0},式中,xs表示软阈值化后所得特征,|x|<τ时,xs置为零,|x|>τ,xs朝着零的方向进行收缩;软阈值化获取特征xs后,与输入特征X做残差连接:X′=X+xs;

将n个残差收缩模块进行级联并构建3D-DRSN网络,通过3D-DRSN网络抑制处理后的时空特征图可表示为:E=DRSNn(X),式中,DRSNn(·)表示n个残差收缩模块构成的特征提取子网;

(2)基于逐层空间卷积的时序候选子网,具体过程如下:

(21)利用三个卷积层和一个1×2×2最大池化层将残差收缩网路获取的时空特征图转化为仅含时序信息的特征图E′:E′=Maxpooling(Conv3(Conv2(Conv1(E)))),式中,conv1(·)、conv2(·)、conv3(·)分别代表三个卷积层;

(22)通过逐层空间卷积,获取到长度的视频时序特征图E',然后,在长度的视频时序特征图E′上提取时序候选片段:proposal=Conv1×1×1(E′),式中,Conv1×1×1(·)表示1×1×1的卷积层,proposal为提取到的时序候选片段;

(3)基于非局部注意力机制的行为分类子网,具体过程如下:

(31)使用Soft-NMS抑制策略替代非极大值抑制:

式中,N表示时序候选子网提取到的时序候选片段个数,M表示当前最高得分的时序边界框,bi为待处理的第i个时序边界框,si为bi的时序边界框置信度得分,γ为边界框抑制阈值,iou(M,bi)表示时序边界框M与bi之间交并比:,

式中,Mstart、Mend分别表示最高得分时序边界框M的开始时间和结束时间,bistart、biend分别表示待处理时序边界框bi的开始时间和结束时间,LM、分别表示时序边界框M和时序边界框bi的时间长度;

(32)将调整后的时序候选片段按照置信度得分进行排序,并选择得分较高K(K≤N)个时序候选片段作为优质的时序候选片段;

(33)通过Soft-NMS策略获取K个优质时序候选段后,采用3D ROI pooling将不等长的时序候选段映射到特征图E的对应位置上:Pk=ROIPooling(softnms(prposal,k),E),式中,Pk∈R512×1×4×4(k∈[1,K])为筛选后的时序候选片段特征图;

(34)获取优质的时序候选片段特征图后,首先将不同位置的特征作配对计算:式中,Wθ、Wφ为权重矩阵;Pik(k∈[1,K])表示特征图Pk第i(i∈[1,16])个位置特征;表示特征图Pl第j(j∈[1,16])个位置特征;表示特征图Pk的第i个位置特征和特征图Pl的第j个位置的特征的相似度;同时,将特征图(k∈[1,K])中16个位置的通道特征进行加权映射形成位置向量:式中Wg为权重矩阵;

(35)通过特征图Pk与特征图Pl相似度以及计算第k个特征图第i个位置的融合向量Fik:式中,M表示特征图Pk的像素总数;

(36)将特征图Pk第i个位置的融合特征Fik以及原始特征Pik作残差连接:式中Wz∈R为权重矩阵;将K个特征所有位置的残差连接进行级联并输入至全连接层得到所有片段的时间边界位置和行为分类:式中,分别表示第k个时序候选片段的边界起止位置;表示第k个时序候选片段被预测为第i类行为的概率;m表示行为类别种类;

(4)CN-R-DRSN网络优化,具体过程如下:

采用分类和回归联合优化策略,利用交叉熵损失函数Lcls(·)预测候选片段中是否包含行为或预测具体的行为类别,并利用平滑的L1损失函数Lreg(·)优化候选边界框与真实边界框之间的相对位移:式中,表示第k个时序候选片段或行为被预测为真实标签的概率,表示对应的行为的真实标签(GT),表示为预测第k个时序候选片段的相对偏移量,表示对应坐标变换的真实时间边界框,坐标变换计算如下:式中,和分别表示时序候选片段的中心位置和长度,和分别表示GT的中心位置和长度,采用分类和回归联合优化策略目标函数为:式中,Ncls、Nreg表示需要训练的时序候选片段的数量,在行为分类子网中其数量等于批处理大小,λ为损失平衡因子。

2.根据权利要求1所述的基于残差收缩结构和非局部注意力的行为检测方法,其特征在于,在步骤(11)中,所述的一维向量Xh,w,l,c的计算公式为:式中,ReLU(·)表示激活函数ReLU,BN(·)表示批标准化,GAP(·)表示全局均值池化,h,w,l,c分别代表特征图的长、宽、帧长度和通道数。