欢迎来到知嘟嘟! 联系电话:13336804447 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13336804447
知嘟嘟经纪人
收藏
专利号: 202310018255X
申请人: 石家庄铁道大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2025-12-26
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种视频显著性区域检测方法,其特征在于,包括如下步骤:步骤1:获取待传输的视频,选取32帧连续帧,输入到训练时损失函数值最小的视频显著性区域检测网络中;

步骤2:采用S3D卷积主干网络的编码器,该网络由四个3D卷积层和三个最大池化层组成,可提取视频的多尺度时空特征 和步骤3:将帧间注意力模块用于在深度特征C4和C5上,增强深度特征的时间特性;

步骤4:采用双向时空金字塔对多尺度时空特征进行由上到下和由下到上两种通路的融合,详细计算过程如下:P5=Conv(C′5),

1×1

P4=Conv(Fu(Conv (C4),Upsample(P5)),

1×1

P3=Conv(Fu(Conv (C3),Upsample(P4)),P2=N2=Conv(Fu(C2,Upsample(P3)),N3=Conv(Fu(P3,MaxPool(N2))),N4=Conv(Fu(P4,MaxPool(N3))),N5=Conv(Fu(P5,MaxPool(N4))),

1x1

其中,Fu是多尺度特征融合函数;为了多尺度特征之间的融合,Conv 用于将其特征调整至相同的通道数,而Upsample和MaxPool用于将其特征调整至相同的分辨率;

为了进一步提高融合效率,采用注意力引导融合机制进行融合;将空间注意力引导融合模块和通道注意力引导融合模块分别插入自上而下和自下而上的路径上,其中空间注意力引导融合模块用于深层特征P4和浅层特征P2、P3之间,以促进多尺度特征充分融合,生成显著性预测所需的上下文信息;

步骤5:将融合后的特征传入解码器中,恢复原始视频帧尺寸,以获取输入序列最后一帧的视频显著性图,为后期视频通信服务。

2.如权利要求1所述的视频显著性区域检测方法,其特征在于,所述帧间注意力模块放置在3D主干网络输出的深度特征之后,用以捕捉帧间关系,调整不同帧的权重,为后期融合提供精细的多尺度特征;该模块包含:平均池化层,全连接层和Sigmoid层,经由此三层可以得到该特征的时间权重FA,将该权重与原特征点乘便可得到优化后的特征,其公式表达如下:FA=σ(FC(AvgPool(F))),

FA

F =FA×F。

3.如权利要求1所述的视频显著性区域检测方法,其特征在于,所述双向时空金字塔用以融合多尺度时空特征;沿自上而下的路径,深层特征逐层上采样并与相应的浅层特征融合,然后沿自下而上的路径,浅层特征逐层下采样并与相应的深层特征融合,从而生成准确预测所需的上下文信息;1x1卷积用来调整相融合特征的通道数,上采样和下采样用来调整相融合特征的分辨率;其中上采样采取三线性插值法,下采样采取最大池化法。

4.如权利要求1所述的视频显著性区域检测方法,其特征在于,所述注意力引导融合机制可以从训练数据中自动学习融合权重,并在不同场景中自适应地调整权重,从而实现更加精准高效的融合;该机制的应用可分为两类:空间注意力引导融合模块和通道注意力引导融合模块;

空间注意力引导融合模块应用在双向时空金字塔的相邻特征融合中,用于加强浅层特征的细节,抑制无关噪声干扰;该模块由上采样层、最大池化层、平均池化层、Sigmoid层组成,以获得浅层特征的空间权重,Fh,Fh′和Fl分别代表深层特征,用于引导的深层特征和浅层特征,其具体公式如下:SAh′=σ(Conv([MaxPool(Upsample(Fh′)),AvgPool(Upsample(Fh′))])),F=SAh′×Fl+Upsample(Fh),通道注意力引导融合模块应用在双向时空金字塔的相邻特征融合中,不仅可以优化浅层特征,还可以在相邻特征之间建立信息交互路径;该模块由最大池化层、平均池化层、全连接层和Sigmoid层组成,Fh和Fl分别代表深层特征和浅层特征,其具体计算公式如下:CAh=σ(FC(AvgPool(Fh))+FC(MaxPool(Fh))),F=CAh×MaxPool(Fl)+Fh。

5.视频显著性区域检测装置,其特征是,包括:

获取模块,其被配置为:获取待检测视频,并截取32帧连续帧作为输入序列;

编码器,其被配置为:采用S3D卷积主干网络的编码器,该网络由四个3D卷积层和三个最大池化层组成,对输入帧序列进行编码,提取视频的多尺度时空特征和

帧间注意力模块,其被配置为:作用于在深度特征C4和C5上,输入深层时空特征,捕捉帧间关系,调整不同帧的权重,增强深度特征的时间特性;

双向时空金字塔模块,其被配置为:对多尺度时空特征进行由上到下和由下到上两种通路的融合,详细计算过程如下:P5=Conv(C5),

1×1

P4=Conv(Fu(Conv (C4),Upsample(P5)),

1×1

P3=Conv(Fu(Conv (C3),Upsample(P4)),P2=N2=Conv(Fu(C2,Upsample(P3)),N3=Conv(Fu(P3,MaxPool(N2))),N4=Conv(Fu(P4,MaxPool(N3))),N5=Conv(Fu(P5,MaxPool(N4))),

1x1

其中,Fu是多尺度特征融合函数;为了多尺度特征之间的融合,Conv 用于将其特征调整至相同的通道数,而Upsample和MaxPoo1用于将其特征调整至相同的分辨率;

为了进一步提高融合效率,采用注意力引导融合机制进行融合;将空间注意力引导融合模块和通道注意力引导融合模块分别插入自上而下和自下而上的路径上,其中空间注意力引导融合模块用于深层特征P4和浅层特征P2、P3之间;

解码器,其被配置为:采用求和与上采样方式,将融合后的多尺度特征恢复原始视频帧尺寸,以获取输入序列最后一帧的视频显著性图。

6.一种电子设备,其特征是,包括:一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序;其中,处理器与存储器连接,上述一个或多个计算机程序被存储在存储器中,当电子设备运行时,该处理器执行该存储器存储的一个或多个计算机程序,以使电子设备执行上述权利要求1‑4任一项所述的方法。

7.一种计算机可读存储介质,其特征是,用于存储计算机指令,所述计算机指令被处理器执行时,完成权利要求1‑4任一项所述的方法。