1.一种基于对比学习和注意驱动对抗网络的无监督视频摘要生成方法,其特征在于,包括以下步骤:S1:读取视频帧序列,并利用特征提取器提取帧级视觉特征ft;
S2:将帧级视觉特征ft输入视频摘要生成模型,通过模型生成每个帧的重要性得分向量,所述视频摘要生成模型包括:对比帧选择器:所述对比帧选择器接收线性压缩层处理后的特征ft’,输出特征St,通过对比学习计算帧之间的相似度,自动选择最具代表性的帧,通过对比损失,将相似帧聚集,不相似帧推远,优化帧的选择,确保视频摘要包含具有信息量和代表性的帧;
所述线性压缩层的输入是帧级视觉特征ft,输出为特征ft’;
多头注意力自动编码器:所述多头注意力自动编码器接收来自所述对比帧选择器处理前后的加权特征向量Wt,利用多头注意力机制并行建模帧特征,捕捉帧间复杂的时序关系和多维信息;通过解码器重构特征,提取视频中关键视觉信息;
所述加权特征向量通过对比帧选择器输出的特征St与对比帧选择器前产生的特征ft’进行加权得到;
生成对抗网络模块:所述生成对抗网络模块包含生成器和判别器,生成器根据输入特征生成样本,模仿真实数据分布;判别器则判定生成样本与真实样本的差异,两者通过对抗训练互相优化,生成器不断改进生成质量,判别器提高区分真假样本的能力;
所述多头注意力自动编码器的解码器作为生成对抗网络模块的生成器,该解码器/生成器输出的重构特征作为判别器的输入;
重要性预测模块:所述重要性预测模块接收来自所述生成对抗网络模块的帧特征,通过分析每一帧的视觉信息,预测帧的重要性得分,从而确定各帧在视频摘要中的重要性程度;
S3:构建目标函数,优化帧选择器的选择准确性,并结合生成对抗网络模块的判别器,迭代优化模型参数,使得视频摘要生成模型能够从无标签视频中有效学习帧的重要性和时序特征;
S4:利用S3训练得到的视频摘要生成模型,对输入视频执行上述S1和S2步骤,根据重要性预测得分,选择出最具代表性的帧,并生成最终的视频摘要。
2.如权利要求1所述的基于对比学习和注意驱动对抗网络的无监督视频摘要生成方法,其特征在于,所述对比帧选择器在计算帧相似度时,通过引入帧间上下文信息,即时序关系和全局特征,增强对相似帧聚类和不相似帧分离的能力,利用对比损失项最大化相似帧间的相似性,最小化不相似帧间的相似性。
3.如权利要求1所述的基于对比学习和注意驱动对抗网络的无监督视频摘要生成方法,其特征在于,构建所述多头注意力自动编码器,其结构依次包括:编码器:对输入的视频帧特征向量进行潜在空间映射;
多头注意力机制:对编码后的特征向量进行并行建模,捕捉多维度的帧间交互信息,确保各维度特征的充分学习;
解码器:对注意力加权后的特征进行重构,输出重构后的特征向量,提取并保留视频中的关键时序信息和视觉特征。
4.如权利要求1所述的基于对比学习和注意驱动对抗网络的无监督视频摘要生成方法,其特征在于,所述多头注意力自动编码器通过残差连接机制,在特征编码和重构阶段保持特征一致性,避免网络退化问题。
5.如权利要求1所述的基于对比学习和注意驱动对抗网络的无监督视频摘要生成方法,其特征在于,构建所述生成对抗网络模块,包括:生成器生成尽量接近真实数据分布的样本,并通过优化生成器的损失函数,使得生成的摘要尽可能真实且具备多样性;
判别器通过识别生成样本与真实样本之间的分布差异,反向优化生成器的生成质量;
生成器和判别器通过对抗学习的方式互相优化,以生成高质量且多样化的视频摘要。
6.如权利要求1所述的基于对比学习和注意驱动对抗网络的无监督视频摘要生成方法,其特征在于,构建所述重要性预测模块,包括:对所述帧特征进行加权求和以获取全局上下文特征;
通过归一化方法对每一帧的特征得分进行归一化处理,生成帧的重要性得分向量;
利用重要性得分向量选择视频中最具代表性的关键帧,生成视频摘要。
7.如权利要求1所述的基于对比学习和注意驱动对抗网络的无监督视频摘要生成方法,其特征在于,所述目标函数包括三项:对比损失项、对抗损失项和重构损失项,其中:对比损失项通过聚类相似帧并分离不相似帧,优化帧选择器;
对抗损失项通过生成器与判别器的对抗学习,提升生成摘要的真实感、多样性及其质量;
重构损失项通过多头注意力自动编码器保证特征的高效重建、信息保留和视觉特征的一致性。