欢迎来到知嘟嘟! 联系电话:13336804447 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13336804447
知嘟嘟经纪人
收藏
专利号: 2022112087710
申请人: 青岛科技大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2026-04-06
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.基于上下文建模与背景抑制的弱监督时序行为检测方法,其特征在于,包括以下步骤:步骤A、首先将视频划分为多个不重叠片段,提取视频场景空间特征和时间运动特征,并将其进行特征融合,进而构建视频级特征表示;

步骤B、设计记忆库M作为动作定位的学习源,并采用自注意力模块对视频的上下文信息进行建模,以提炼片段级动作特征,并训练片段级分类器;

步骤C、添加背景辅助类,通过滤波模块抑制背景帧的输入特征,以防止背景噪声的干扰并获得前景注意力权重;

步骤D、结合步骤B和步骤C,对网络进行迭代优化训练,将细化后的片段级动作特征及前景注意力权重在注意力加权池中进一步联合实现视频级预测。

2.根据权利要求1所述的基于上下文建模与背景抑制的弱监督时序行为检测方法,其特征在于:所述步骤A中,具体通过以下方式实现:以均匀采样的策略将视频Vi划分为T个不重叠的片段,基于特征提取器提取场景空间特

2D

征 和时间运动特征 然后将两流片段级特征融合得到xi∈R ,i∈[1,T],进而构建视频级特征表示 D代表特征维度。

3.根据权利要求2所述的基于上下文建模与背景抑制的弱监督时序行为检测方法,其特征在于:所述步骤B具体包括以下步骤:e T×2D

(1)将步骤A获得的视频级特征Xi存入到记忆库M中,M∈R ,采用EQ、Ek和Ev编码器将视频片段分别对应的生成查询、键和值;

Ki=Ek(M)

Vi=Ev(M)

T×2D/m T×(C+1)2D

Ki∈R ,Vi∈R 是键和值,m是控制内存读取效率的超参数;

T×2D/m

(2)基于编码器EQ,将视频级特征 编码为一组查询Qi,Qi∈R ,然后计算带有查询的视频片段之间的相似度分数,用其相似度分数聚合上下文信息得到细化的片段级动作特征:其中,I是用于保存原始视频信息的单位矩阵, 与 保持相同的维度;通过片段之间的信息传递,提取全局上下文信息并获得更多易于分类和定位的判别特征;

(3)计算Qi与Ki之间的相互作用,并获得不同片段间的相关性,从而使网络具有全局视o图,最后进行聚合得到相似矩阵Vi,如下所示:o T×(C+1)2D

其中,Vi∈R ;

o

(4)将相似矩阵Vi 重塑为一组片段级分类器 其适应每个片段的外o

观或运动变化;利用Vi计算稀疏损失函数以训练片段级分类器:其中,|| ||1为L1损失,其鼓励背景帧与所有动作片段具有低相似性。

4.根据权利要求3所述的基于上下文建模与背景抑制的弱监督时序行为检测方法,其特征在于:所述步骤C具体通过以下方式实现:(1)将 作为滤波模块的输入,所述滤波模块包含两个时序的1D卷积及Sigmoid函数,由与背景类相反的训练目标训练来抑制背景帧,得到前景注意力权重 Wi∈[0,1], 是一个具有参数Φ的函数;

(2)利用真实行为类别 与预测得分pj为每个类构建二进制交叉熵损失Lsup,以对滤波模块进行训练:其中,pj表示预测得分,Lsup表示二进制交叉熵损失。

5.根据权利要求4所述的基于上下文建模与背景抑制的弱监督时序行为检测方法,其特征在于:所述步骤D中,结合步骤B和步骤C实现视频级预测,具体通过以下方式实现:将分类器应用到相应的段上,视频级分类结果 由注意力加权池获得到:其中, 动作分类损失由N个视频之间的预测和真实视频标签yi构成:其中,Lact表示动作分类损失,C+1表示动作类别总数。

6.根据权利要求4所述的基于上下文建模与背景抑制的弱监督时序行为检测方法,其特征在于:所述步骤D中,在对网络进行迭代优化训练时,具体采用以下方式:(1)结合步骤B和步骤C,定义联合损失函数;

Ltol=λ1Lsup+λ2Lact+λ3Ls其中,λ1,λ2和λ3是需要学习的超参数,用于平衡每个损失函数的贡献;

(2)视频定位推理:

1)对视频级预测分数 设定阈值,并丢弃置信度分数低于阈值θcls的类别;

2)在每个剩余的类别上将阈值θact应用于前景注意力权重以生成动作提议:为给每个动作提议分配置信度,首先计算类激活序列CAS,然后沿着类别维度通过Softmax传递,以获得每个时间位置上的类分数进而动作提议{(c,q,ts,te)}中的置信度q为:最后,使用类非极大抑制NMS去除高重叠的动作提议。