1.一种文段问答框架下跨模态的时域视频定位方法,其特征在于包括如下步骤:步骤1.数据集获取;从现有的公开文本视频时序定位任务数据集中,选择ActivityNet及Charades数据集;
步骤2.数据处理;对于步骤1中获取的数据集,对文本数据使用300维的GloVe向量初始化每一个单词得到语义特征;对未剪辑的视频数据,对其中每一帧进行下采样并使用预训练好的3D卷积网络提取其RGB初步视觉特征;
步骤3.定义文段问答框架下跨模态的时域视频定位模型,该模型包括编码器、序列查询注意力、局部‑全局/视频‑文本交互、上下文‑查询注意力以及条件文段预测器五个模块;
以步骤2处理后的视频和文本训练数据作为输入;
步骤4.损失函数;损失函数的作用是用来校正模型定位的片段与真实视频片段之间的误差;此处采用查询可分注意力损失函数、定位损失函数两种损失函数;
步骤5.定义Adam优化器,给模型设定一个学习率,初始学习率设定为0.0001,同时采用学习率预热机制,使模型更加稳定,同时加快收敛速度;同时采用梯度裁剪来有效控制梯度消失问题;
步骤6.网络训练与测试,训练步骤3中的时域视频定位模型,训练的同时在各数据集提供的测试集上进行评估。
2.根据权利要求1所述的文段问答框架下跨模态的时域视频定位方法,其特征在于时域视频定位模型具体:采用LGI作为基准模型,并引入文段问答框架,同时修改基准模型的编码器和定位,最后添加上下文‑查询注意力模块和条件文段预测器模块。
3.根据权利要求1所述的文段问答框架下跨模态的时域视频定位方法,其特征在于步骤3所述的编码器模块具体实现如下:对于拥有L个词的文本词嵌入输入,首先使用全连接层统一文本词嵌入与初步视觉特征的维度;再使用两个bi‑LSTM获取文本词嵌入的单词级语义特征和句子级语义特征,其中单词级语义特征第l个位置的特征 由两LSTM对应位置的隐层状态值连接得到,句子级语义特征 由两个LSTM最后的隐层状态值连接得到;
对于由步骤2中CNN处理后得到的初步视觉特征和处理得到的语义特征统一到指定维度,再通过相同的bi‑LSTM得到对应更细致的视觉特征和语义特征。
4.根据权利要求1所述的文段问答框架下跨模态的时域视频定位方法,其特征在于步骤3所述的上下文‑查询注意力模块具体实现如下:将编码器模块得到的语义特征和局部‑全局/视频‑文本交互模块得到的跨模态特征进行基于注意力机制的融合,融合后的特征为:q
V=FFN([R;A;R⊙A;R⊙B])
其中:
其中,A、B分别是上下文对查询以及查询对上下文的注意力权重,E表示单词级语义特征;R表示局部‑全局/视频‑文本交互模块最终输出的特征;S表示上下文特征和语义特征之间的相似度得分 Sr,Sc分别由相似度得分S通过softmax层对行及列作归一化后得,⊙代表矩阵元素间相乘,T表示转置。
5.根据权利要求1所述的文段问答框架下跨模态的时域视频定位方法,其特征在于条件文段预测器模块具体实现如下:q
该模块使用两个堆叠的Uni‑LSTM处理上下文‑查询注意力模块融合得到的特征V ,后边界LSTM接收前边界LSTM的输出故受其限制,最终两个隐层状态被送入前馈层计算第t个特征,根据该特征计算起始处和结束处的置信度得分q
其中, 分别代表第t个特征作为起始和终止边界的得分, 为V中的第t个融合特征,h为LSTM的隐层,Ws/e、bs/e为前馈层的权重矩阵和偏置,起始和终止边界的计算公式如下:s
Ps=softmax(S)
e
Pe=softmax(S)。
6.根据权利要求1所述的文段问答框架下跨模态的时域视频定位方法,其特征在于步骤4中的查询可分注意力损失函数如下式:其中 是联合了n步最终的查询注意力权重矩阵,||·||F是矩阵的F范数,I表示单位矩阵;λ表示矩阵系数。
7.根据权利要求1所述的文段问答框架下跨模态的时域视频定位方法,其特征在于所述的定位损失函数如下式:其中fCE为交叉熵损失函数,Ys和Ye是起始边界和终止边界的真实值,Ps和Pe起始和终止边界的预测值。