1.一种两级网络的图像文本跨媒体检索方法,其特征是,包括如下步骤:步骤1、构建跨媒体两级模型阶段:
所构建的跨媒体两级模型包括全局生成对抗网络和局部跨媒体注意网络;
步骤2、训练数据集的获取阶段:
步骤2.1、从现有图像文本跨媒体的数据集中获取原始图像和原始文本,并将所获取原始图像和原始文本中相互对应的1个原始图像和1个原始文本形成图像文本对;
步骤2.2、对每个图像文本对中的原始图像和原始文本分别附上不同的模态标签,由此得到训练数据集;
步骤3、跨媒体两级模型进行训练阶段:
步骤3.1、利用图像文本对跨媒体两级模型中的全局生成对抗网络进行训练;
步骤3.1.1、先将图像文本对中的原始图像输入到全局卷积神经网络中进行图像的特征提取训练,再将所提取到的图像的特征送入到全局图像全连接网络中进行降维训练,以训练出该原始图像的图像全局表示;
步骤3.1.2、先将图像文本对中的原始文本输入到字符型卷积神经网络中进行文本的特征提取训练,再将所提取到的文本的特征送入全局长期短期记忆网络学习其全局代表性,后将学习后的文本的特征送入到全局文本全连接网络中进行降维训练,以训练出该原始文本的文本全局表示;
步骤3.1.3、利用每个图像文本对中的原始图像训练所得的图像全局表示和原始文本训练所得的文本全局表示,去训练全局生成对抗网络的全局特征相似度;
步骤3.2、利用图像文本对跨媒体两级模型中的局部跨媒体注意网络进行训练;
步骤3.2.1、先将图像文本对中的原始图像输入快速候选区域卷积神经网络中进行图像候选区域提取训练,再将所提取到的图像候选区域送入到局部卷积神经网络中进行图像候选区域的特征提取训练,后将所提取到的图像候选区域的特征送入到局部图像全连接网络中进行降维训练,以训练出该原始图像的图像局部表示;
步骤3.2.2、先将图像文本对中的原始文本输入到词嵌入矩阵进行单词提取训练,再将所提取到的单词向量送入文本双向长期短期记忆网络总结出所提取单词向量的语义信息,以生成不同的文本片段,并对生成的文本片段进行注意机制训练来捕获其中有用的文本片段,后将有用的文本片段送入到局部文本全连接网络中进行降维训练,以训练出该原始文本的文本局部表示;
步骤3.2.3、利用每个图像文本对中的原始图像训练所得的图像局部表示和原始文本训练所得的文本局部表示,去训练局部跨媒体注意网络的局部特征相似度;
步骤3.3、利用步骤3.1训练所得全局生成对抗网络的全局特征相似度和步骤3.2训练所得训练局部跨媒体注意网络的局部特征相似度,去训练跨媒体两级模型的综合相似度;
步骤3.4、利用步骤2所得到的训练数据集中的所有图像文本对对步骤1所构建的跨媒体两级模型进行重复步骤3.1‑3.3的训练过程,以确定跨媒体两级模型中的网络参数,由此得到训练好的跨媒体两级模型;
步骤4、检索阶段:
将待检索图像和待检索文本同时输入到步骤3所训练好的跨媒体两级模型中,通过训练好的跨媒体两级模型输出待检索图像和待检索文本之间的综合相似度,从而确定该待检索图像和待检索文本是否相似。
2.根据权利要求1所述的一种两级网络的图像文本跨媒体检索方法,其特征是,步骤
2.1所述的图像文本跨媒体的数据集为Flickr30K和MS‑COCO。
3.根据权利要求1所述的一种两级网络的图像文本跨媒体检索方法,其特征是,步骤
2.2中,对于每个图像文本对,将其原始图像的模态标签记做01,并将其原始文本的模态标签记做10。
4.根据权利要求1所述的一种两级网络的图像文本跨媒体检索方法,其特征是,步骤
3.1.3中,全局生成对抗网络的全局特征相似度等于图像全局表示与文本全局表示之间的点积。
5.根据权利要求1所述的一种两级网络的图像文本跨媒体检索方法,其特征是,步骤
3.2.3中,局部跨媒体注意网络的局部特征相似度等于图像局部表示与文本局部表示之间的点积。
6.根据权利要求1所述的一种两级网络的图像文本跨媒体检索方法,其特征是,步骤
3.4中,综合相似度等于全局特征相似度和局部特征相似度之和。