欢迎来到知嘟嘟! 联系电话:13336804447 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13336804447
知嘟嘟经纪人
收藏
专利号: 2020105822737
申请人: 西安电子科技大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-02-26
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于注意力机制的语义图像检索方法,其特征在于,包括如下步骤:(1)构建包含注意力机制的CNN‑RNN网络模型并进行训练:(1a)对MS COCO数据集中图片和相应的图像标题进行预处理;

(1b)构建卷积神经网络VGG编码器和循环神经网络LSTM解码器,并在解码器中加入注意力机制,得到由编码器和解码器组成的CNN‑RNN网络模型;

(1c)对预处理后的数据划分训练数据集与测试数据集,采用训练数据集对网络模型进行训练,并利用测试数据集进行测试,获取最终CNN‑RNN网络模型;

(2)使用最终CNN‑RNN网络模型提取待检索图像库中所有图片的图像标题,即图片对应的文本特征,并将提取的文本特征存储在数据库中;

(3)使用文本向量doc2vec模型提取数据库中文本特征的语义特征向量并存储:(3a)使用gensim库中的文本向量doc2vec模型对步骤(2)得到的所有文本特征依次进行处理,获取每个图片对应的语义特征向量;

(3b)将得到的语义特征向量与相对应的图片存储在数据库中,并使之相互匹配;

(4)使用最终CNN‑RNN网络模型提取查询图片的文本特征,并提取其对应的语义特征向量;

(5)使用余弦相似度比较法将查询图片的语义特征向量和图像库中其它图片的语义特征向量进行比较,得到相似语义特征向量;

(6)输出相似语义特征向量对应的图片,即待查询图片的相似图片。

2.根据权利要求1所述的方法,其特征在于:所述文本特征是用自然语言描述图片内容的短文本。

3.根据权利要求1所述的方法,其特征在于:步骤(1a)所述预处理为分词、句法分析和词向量。

4.根据权利要求1所述的方法,其特征在于:步骤(1b)所述构建卷积神经网络VGG编码器具体是将网络最后卷积层的输出作为图片的特征进行输出,即选取最后卷积层的至少5个特征图作为特征向量进行输出。

5.根据权利要求4所述的方法,其特征在于:所述卷积神经网络VGG编码器的网络结构由5层卷积层、3层全连接层、softmax输出层构成,且层与层之间使用最大池化分开,所有隐层神经元均采用ReLU激活函数。

6.根据权利要求1所述的方法,其特征在于:步骤(1b)所述在解码器中加入注意力机制是指在解码器解码的每一时间步时,将循环神经网络LSTM解码器输出的特征向量进行加权平均得到上下文向量,并将该向量也作为解码器网络的一个输入,用于实现指导当前时间步的解码操作。

7.根据权利要求1所述的方法,其特征在于:步骤(1b)所述循环神经网络LSTM解码器的输入包含当前步的词向量、前一时间步的输出向量以及注意力机制形成的加权向量,输出为当前时间步输出的词向量。

8.根据权利要求1所述的方法,其特征在于:步骤(3)所述提取数据库中文本特征的语义特征向量是把图片内容的自然语言描述转换为语义特征向量。

9.根据权利要求1所述的方法,其特征在于:步骤(5)所述余弦相似度按照如下公式计算:其中A表示查询图片的语义特征向量,B表示图像库中其它图片的语义特征向量。