1.一种基于深度学习的高层次语义图像检索方法,其特征在于,包括如下步骤:(1)构建CNN-RNN网络模型并进行训练:
(1a)对MS COCO数据集中图片和相应的图像标题进行预处理;
(1b)构建卷积神经网络VGG编码器和循环神经网络LSTM解码器,得到由编码器和解码器组成的CNN-RNN网络模型;
(1c)对预处理后的数据划分训练数据集与测试数据集,采用训练数据集对网络模型进行训练,并利用测试数据集进行测试,获取最终CNN-RNN网络模型;
(2)使用最终CNN-RNN网络模型提取待检索图像库中所有图片的图像标题,即图片对应的文本特征,并将提取的文本特征存储在数据库中;
(3)使用gensim库中自带的词向量模型,将文本特征中每个词的词向量相加,并取其相加结果的平均值,得到每个文本特征对应的语义特征向量并存储;
(4)使用最终CNN-RNN网络模型提取查询图片的文本特征,并提取其对应的语义特征向量;
(5)使用余弦相似度比较法将查询图片的语义特征向量和图像库中其它图片的语义特征向量进行比较,得到相似语义特征向量;
(6)输出相似语义特征向量对应的图片,即待查询图片的相似图片。
2.根据权利要求1所述的方法,其特征在于:所述文本特征是用自然语言描述图片内容的短文本。
3.根据权利要求1所述的方法,其特征在于:步骤(1a)所述预处理为分词、句法分析和词向量。
4.根据权利要求1所述的方法,其特征在于:步骤(1b)所述构建卷积神经网络VGG编码器具体是将网络最后卷积层的输出作为图片的特征进行输出,即选取最后卷积层的至少5个特征图作为特征向量进行输出。
5.根据权利要求4所述的方法,其特征在于:所述卷积神经网络VGG编码器的网络结构由5层卷积层、3层全连接层、softmax输出层构成,且层与层之间使用最大池化分开,所有隐层神经元均采用ReLU激活函数。
6.根据权利要求1所述的方法,其特征在于:步骤(1b)所述循环神经网络LSTM解码器的输入包含当前步的词向量和前一时间步的输出向量,输出为当前时间步输出的词向量。
7.根据权利要求1所述的方法,其特征在于:步骤(3)所述提取数据库中文本特征的语义特征向量是把图片内容的自然语言描述转换为语义特征向量。
8.根据权利要求1所述的方法,其特征在于:步骤(5)所述余弦相似度按照如下公式计算:其中A表示查询图片的语义特征向量,B表示图像库中其它图片的语义特征向量。