1.一种联合强化学习和对比学习的视频摘要生成方法,其特征在于,包括以下步骤:步骤1:根据视觉特征将完整的视频序列分割得到 个互不相交的子序列;
步骤2:构建以镜头级特征为输入,以镜头级重要性分数为输出的视频摘要模型,所述模型包括:优化编码模块,所述优化编码模块以每个镜头内帧级特征序列作为输入,将视频镜头编码成为简洁的特征表示,以表征镜头内的语义信息,输出镜头级特征表示序列,其中 表示第 个镜头级特征向量;
差异引导注意力图,所述差异引导注意力图以所述优化编码模块的输出作为输入,用于聚合不同镜头之间的上下文依赖关系,理解视频内容;
分数预测模块,所述分数预测模块将所述差异引导注意力图的输出作为输入,用于回归所述镜头级重要性分数;
步骤3:构建训练损失函数,对网络参数进行迭代优化,所述训练损失函数包括:强化学习奖励函数,所述强化学习奖励函数用于使模型选择具有多样性和代表性的摘要结果,记为 ,计算公式如下:,
,
其中 表示多样性奖励, 表示代表性奖励, 表示网络挑选的候选摘要结果,表示余弦距离;
正则项,所述正则项用于限制预测的重要性分数的分布,防止模型选取过多镜头,记为,其计算公式为:,
其中, 表示第 个镜头的重要性分数, 为超参数;
对比学习损失项,所述对比学习损失项用于使优化编码器将视频镜头编码成更具判别性和信息性的特征表示,记为 ,计算公式如下:,
其中 表示余弦相似性, 是温度超参数,用于控制相似性分数的尺度, 和为不同的Dropout掩模;
所述训练损失函数由强化学习奖励函数、正则项和对比学习损失项共同构成,表示为:,
其中, 表示模型中的参数, 和 为超参数;
步骤4:选择包含最多关键信息的镜头,输出动态视频摘要。
2.根据权利要求1所述的一种联合强化学习和对比学习的视频摘要生成方法,其特征在于,所述根据视觉特征将完整的视频序列分割得到 个互不相交的子序列,包括:利用深度卷积神经网络提取视频帧的空间特征;
利用镜头分割算法检测视觉变化点,得到视频镜头序列。
3.根据权利要求1所述的一种联合强化学习和对比学习的视频摘要生成方法,其特征在于,构建所述优化编码模块,包括:使用门控循环单元处理每个镜头内的帧序列,用于捕获镜头内的语义信息;
使用特征传递层处理语义特征,将高维向量映射为低维向量,得到镜头级特征表示。
4.根据权利要求3所述的一种联合强化学习和对比学习的视频摘要生成方法,其特征在于,所述使用门控循环单元包括前向门控循环单元和后向门控循环单元,分别用于捕获每个镜头内未来和历史方向的依赖信息。
5.根据权利要求3所述的一种联合强化学习和对比学习的视频摘要生成方法,其特征在于,构建所述特征传递层,包括:两个全连接层在传递深层特征的同时降低特征维度;
Dropout层用于在特征中添加噪声信息。
6.根据权利要求1所述的一种联合强化学习和对比学习的视频摘要生成方法,其特征在于,构建所述差异引导注意力图,包括:计算镜头级特征表示之间的成对余弦距离作为镜头间的语义差异性分数;
对于第 个镜头,选择与其语义差异分数最大的 个镜头建立通信路径,得到镜头稀疏图;
计算具有通信路径的节点间的相关性分数,自适应地执行特征聚合操作,输出镜头的上下文特征 ,其中 表示第 个镜头的上下文特征。
7.根据权利要求1所述的一种联合强化学习和对比学习的视频摘要生成方法,其特征在于,所述分数预测模块采用图卷积操作为每个镜头回归重要性分数。
8.根据权利要求1所述的一种联合强化学习和对比学习的视频摘要生成方法,其特征在于,所述包含最多关键信息的镜头,输出动态视频摘要,包括:规定摘要最大时长,采用动态规划算法获取最优解;
将选择的子序列按照时间顺序进行重新组合,输出所述动态视频摘要。