知嘟嘟-专利交易平台_专利购买_专利出售-买专利,上嘟嘟

欢迎来到知嘟嘟！联系电话：13336804447 卖家免费入驻，海量在线求购！卖家免费入驻，海量在线求购！

嘟嘟会员

帮助中心网站地图

查出售查高校查求购查年费

我要发布

首页转移热力图Hot 专利交易委托购买高校专区科技服务专利求购年费查询行业资讯

联系电话：13336804447

知嘟嘟经纪人

一种层次化跨模态交互的无监督视频摘要生成方法

面议

专利号： 202511787837X

申请人：石家庄铁道大学

专利类型：发明专利

专利状态：已下证

专利领域：计算；推算；计数

更新日期：2026-04-03

缴费截止日期：暂无

价格&联系人

年费信息

委托购买

专利简介

专利详情

委托购买说明

需准备材料

常见问题

摘要:

权利要求书:

1.一种层次化跨模态交互的无监督视频摘要生成方法，其特征在于，包括以下步骤：

S1：读取输入的视频帧序列，通过特征提取器分别提取视频静态特征和动态特征，得到帧级静态特征序列和动态特征序列；

S2：利用基于核的分割算法监测帧序列的视觉变化点，按视觉变化点将视频划分为语义连贯的镜头子序列；

S3：将帧级静态特征序列和动态特征序列输入视频摘要生成模型，通过模型预测镜头级重要性分数序列，所述视频摘要生成模型包括：镜头级特征融合器：所述镜头级特征融合器是以帧级静态特征序列和动态特征序列为输入，对各镜头内的帧级静态特征序列和动态特征序列分别进行聚合编码，得到各镜头的镜头级静态特征和动态特征；再按镜头时序排列，得到镜头级静态特征序列和动态特征序列；随后对两类镜头级特征序列进行双向交互，得到交互校准后的镜头级静态特征序列和动态特征序列，最后融合为统一的镜头级特征序列；

视频级特征融合器：所述的视频级特征融合器是以交互校准后的镜头级静态特征序列和动态特征序列为输入，通过对镜头级静态特征序列和动态特征序列分别进行编码，得到视频级静态特征和动态特征；接着对两类视频级特征进行双向交互，最后融合为统一的视频级特征；

跨层级关联模块：所述的跨层级关联模块是以镜头级特征序列和视频级特征为输入，通过视频级特征的全局语义引导，对镜头级特征序列进行语义校准与关联强化，最后输出优化后的镜头级特征序列；

分数预测器：所述的分数预测器是以优化后的镜头级特征序列为输入，通过特征映射与分数建模，输出镜头级特征重要性分数序列；

S4：构建目标损失函数，采用无监督方式训练上述的视频摘要生成模型；

S5：使用S4训练得到的视频摘要模型对新视频进行预测，根据生成的镜头级重要性得分序列生成视频摘要。

2.如权利要求1所述的一种层次化跨模态交互的无监督视频摘要生成方法，其特征在于，所述的视频静态特征是指视频帧序列的RGB图像特征，所述的动态特征是指能反映视频帧间运动变化的运动特征。

3.如权利要求1所述的一种层次化跨模态交互的无监督视频摘要生成方法，其特征在于，所述镜头级特征融合器，包括：帧级特征聚合为镜头级特征：对于各镜头内的帧级静态特征序列，通过双向门控循环单元GRU建模帧间时序关联，进而生成镜头级静态特征HS；对于各镜头内的帧级动态特征序列，先通过时序注意力机制精准聚焦关键动作帧，再经双向门控循环单元GRU建模帧间时序依赖关系，最终生成镜头级动态特征HD；最后将所有镜头特征按时序排序，形成镜头级静态特征序列和动态特征序列，其中K表示镜头总数；

跨模态双向交互：对各镜头内的镜头级静态特征HS和动态特征HD进行两次查询交换实现镜头级特征的交互，将两次交互结果与原始特征拼接，得到交互校准后的镜头级静态特征和动态特征，再经多层感知机MLP压缩得到融合后的镜头级特征Hfuse。

4.如权利要求1所述的一种层次化跨模态交互的无监督视频摘要生成方法，其特征在于，所述视频级特征融合器，包括：添加时序位置信息：为各镜头的镜头级静态特征和动态特征分别添加可学习的时序位置信息；

单模态长程关联挖掘：对镜头级静态特征序列和动态特征序列分别采用时序卷积网络和多头自注意力，捕捉跨镜头的长程语义依赖；最后通过残差连接与层归一化，输出视频级静态特征GS和动态特征GD;跨模态双向交互：将视频级静态特征GS和动态特征GD通过两次查询交换完成视频级特征的交互，然后将两次交互结果与原始特征拼接，经多层感知机MLP压缩得到融合后的视频级特征Gfuse。

5.如权利要求1所述的一种层次化跨模态交互的无监督视频摘要生成方法，其特征在于，所述跨层级关联模块，包括：通过1×1卷积将镜头级特征序列和视频级特征Gfuse保持相同的维度，确保后续注意力计算的兼容性；

以视频级特征Gfuse作为注意力查询向量Q、镜头级特征序列作为键向量K与值向量V，通过注意力计算得到每个镜头特征与视频全局语义的关联权重，实现视频级特征对镜头级特征的精准引导；接着用关联权重加权镜头级特征，再通过门控机制融合视频级特征与原始镜头级特征，得到优化后的镜头级特征序列。

6.如权利要求1所述的一种层次化跨模态交互的无监督视频摘要生成方法，其特征在于，所述分数预测器，包括：通过两层感知机MLP挖掘优化后的镜头级特征序列的高阶语义关联，经MLP处理后得到高阶语义特征，将高阶语义特征直接映射为单维重要性分数，为确保分数可解释性与筛选便利性，通过Sigmoid函数将原始分数校准至[0,1]区间，每个分数独立表征对应镜头的重要性分数，最终输出镜头级重要分数序列。

7.如权利要求1所述的一种层次化跨模态交互的无监督视频摘要生成方法，其特征在于，所述目标损失函数，包括：目标函数包含跨模态一致性损失项、层级语义重建损失项、镜头时序连贯性损失项、强化学习损失项及正则项，公式为：，

其中：Lcmc是跨模态一致性损失项，用于优化跨模态特征的语义一致性；Lhr是层级语义重建损失项，用于保障镜头级与视频级语义的层级保真；Ltc是镜头时序连贯性损失项，用于约束镜头重要性分数的时序平滑性；Lrl是强化学习损失项，用于直接优化摘要质量； Lreg是正则项，用于防止模型过拟合；是超参数，用于平衡不同损失项的权重。

8.如权利要求1所述的一种层次化跨模态交互的无监督视频摘要生成方法，其特征在于，所述生成视频摘要，包括：根据贪婪算法，先依据镜头级重要性分数序列，按分数从高到低筛选镜头；随后按这些镜头在原视频中的时序顺序重新排序保留，避免打乱视频原本的时序逻辑；最后将筛选后的关键镜头进行拼接，并控制摘要时长在原视频的合理区间内，形成语义完整、无冗余的视频摘要。