1.一种基于全局多尺度编码与局部稀疏注意力的视频摘要生成方法,其特征在于,包括以下步骤:S1:读取输入视频,提取视频帧的帧级特征向量;
S2:将帧级特征向量输入视频摘要生成模型,预测帧级重要性分数,所述视频摘要生成模型包括:视频特征优化器:所述视频特征优化器接收帧级特征向量,通过执行全局平均池化生成全局上下文向量,将所述全局上下文向量与所述帧级特征向量进行注意力加权,输出优化特征序列;
全局多尺度编码模块:所述全局多尺度编码模块接收优化特征序列,通过多头注意力机制提取全局特征表示,并通过多尺度深度可分离卷积操作提取局部特征表示,通过融合所述全局特征表示和所述局部特征表示来提取视频中的全局语义信息;
局部块对角稀疏注意力模块:所述全局多尺度编码模块的输出作为所述局部块对角稀疏注意力模块的输入,所述局部块对角稀疏注意力模块将自注意力矩阵稀疏化为块对角结构,通过拼接注意力加权特征、帧级独特性特征及块间多样性特征建模局部依赖关系;
S3:将所述全局多尺度编码模块的输出和局部块对角稀疏注意力模块的输出进行自适应加权融合,生成融合特征表示;
S4:将所述融合特征表示输入回归网络,输出帧级重要性分数,选择出最具代表性的帧,并生成最终的视频摘要。
2.如权利要求1所述的基于全局多尺度编码与局部稀疏注意力的视频摘要生成方法,其特征在于,所述视频特征优化器,包括:对所述帧级特征向量执行全局平均池化,生成全局上下文向量C,具体计算公式如下:,
其中, xi表示第i帧的特征向量,n为视频帧数;
将所述全局上下文向量与所述帧级特征向量进行注意力加权,生成加权特征序列Y;
对所述加权特征序列执行层归一化处理,输出优化特征序列Z,具体计算公式为:Z = LayerNorm(Y)。
3.如权利要求1所述的基于全局多尺度编码与局部稀疏注意力的视频摘要生成方法,其特征在于,所述全局多尺度编码模块,包括:采用多头注意力机制计算所述优化特征序列的全局特征表示G,具体计算公式为:G = Concat(head1,…,headh)WG
其中,headi = Ai’V’,Ai’为所述全局多尺度编码模块通过多头自注意力机制对全局帧间依赖关系进行建模得到的注意力权重,V’为通过线性变换得到的值矩阵,h为注意力头数,WG为输出映射矩阵;
采用多尺度深度可分离卷积操作提取局部特征表示F,具体计算公式如下:F = F3+F5
其中,F3 = Pointwise(D3(V’))、F5 = Pointwise(D5(V’)),Dk表示核大小为k的深度卷积操作,Pointwise表示逐点卷积;
最后将全局特征表示G和局部特征表示F进行自适应特征融合,生成最终的全局多尺度编码表示Fglobal。
4.如权利要求1所述的基于全局多尺度编码与局部稀疏注意力的视频摘要生成方法,其特征在于,所述局部块对角稀疏注意力模块将自注意力矩阵划分为非重叠的局部块,每个局部块包含预设数量的连续帧;拼接注意力加权特征、帧级独特性特征及块间多样性特征;通过线性层融合拼接后的特征,输出帧局部重要性表示,所述帧局部重要性表示Flocal根据以下公式计算:Flocal = Linear(Concat(Af,Uf,Df))其中,Af表示注意力加权特征,Uf表示帧级独特性特征,Df表示块间多样性特征,Concat表示特征拼接操作,Linear表示线性层融合操作。
5.如权利要求4所述的基于全局多尺度编码与局部稀疏注意力的视频摘要生成方法,其特征在于,所述局部块对角稀疏注意力模块中每个局部块包含的预设数量的帧为60帧。
6.如权利要求4所述的基于全局多尺度编码与局部稀疏注意力的视频摘要生成方法,其特征在于,所述局部块对角稀疏注意力模块中帧级独特性特征Uf通过注意力熵计算得到,计算公式如下:,
其中,pi表示第i 个帧的注意力权重,N表示局部块内的帧数量;所述块间多样性特征Df通过余弦相似度计算得到,计算公式如下:,
其中, Fi和Fj分别表示局部块中第i个和第j个帧的特征向量,(•)表示向量点积,∣ ∣表示向量的欧几里得范数。
7.如权利要求1所述的基于全局多尺度编码与局部稀疏注意力的视频摘要生成方法,其特征在于,所述自适应加权融合的计算公式如下:Ffused=β×Fglobal+(1-β)×Flocal其中,Ffused表示融合特征表示,Fglobal表示全局多尺度编码模块的输出,Flocal表示局部块对角稀疏注意力模块的输出,β为自适应权重系数,满足0<β<1。
8.如权利要求1所述的基于全局多尺度编码与局部稀疏注意力的视频摘要生成方法,其特征在于,所述回归网络包括以下层:Dropout层、归一化层、全连接层、ReLU激活层、Dropout层、归一化层、全连接层和Sigmoid激活层。