欢迎来到知嘟嘟! 联系电话:13336804447 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13336804447
知嘟嘟经纪人
收藏
专利号: 2021104071129
申请人: 齐鲁工业大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2025-02-11
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于多模态注意力机制的跨模态哈希方法,包括:训练过程和检索过程,其特征在于:训练过程:将相同语义的图像文本对以及其所属的类标签输入到多模态注意力机制的跨模态哈希网络模型中进行训练,直至多模态注意力机制的跨模态哈希网络模型收敛,得到训练好的多模态注意力机制的跨模态哈希网络模型;

检索过程:将待查询的图像或文本输入训练好的多模态注意力机制的跨模态哈希网络模型,根据相似度的大小,得到检索到的前k个文本或图像;

所述训练过程包括:

步骤(1‑1):将不同类别的图像输入图像模态特征提取网络,提取图像的全局特征向量;

步骤(1‑2):将与步骤(1‑1)中图像数据对应的文本数据输入到文本模态特征提取网络中,提取文本的全局特征向量;

步骤(1‑3):将图像的全局特征向量和文本的全局特征向量分别输入多模态交互门,得到的多模态图像上下文特征向量和多模态文本上下文特征向量分别输入到跨模态哈希网络中,得到的图像特征向量和文本特征向量分别输入哈希层,得到图像特征向量对应的二进制哈希码和文本特征向量对应的二进制哈希码;

所述步骤(1‑1)包括:

步骤(1‑1‑1):采用卷积神经网络CNN提取图像模态的粗粒度特征向量;

步骤(1‑1‑2):将提取的图像模态的粗粒度特征输入均值池化层,得到图像全局上下文特征向量;

步骤(1‑1‑3):将图像模态的粗粒度特征向量输入循环神经网络GRU,得到图像的空间位置特征向量;

步骤(1‑1‑4):将图像全局上下文特征向量与图像的空间位置特征向量相加,得到图像的全局特征向量;

所述步骤(1‑2)包括:

步骤(1‑2‑1):采用循环神经网络中的Bi‑LSTM提取文本模态的粗粒度特征向量;

步骤(1‑2‑2):将文本模态的粗粒度特征向量输入均值池化层,得到文本的全局特征向量;

所述步骤(1‑3)包括:

步骤(1‑3‑11):将图像的全局特征向量输入多模态交互门,得到多模态图像上下文特征向量;

步骤(1‑3‑12):将多模态图像上下文特征向量与图像模态的粗粒度特征向量共同输入图像的多模态注意力函数中,计算每个图像区域的注意力权重;

步骤(1‑3‑13):根据每个图像区域的注意力权重、图像模态的粗粒度特征向量和bm,通过加权平均计算图像特征向量;

步骤(1‑3‑14):将图像特征向量输入哈希层,计算图像特征向量对应的二进制哈希码。

2.根据权利要求1所述的基于多模态注意力机制的跨模态哈希方法,其特征在于,所述步骤(1‑3)包括:步骤(1‑3‑21):将文本的全局特征向量输入多模态交互门,得到多模态文本上下文特征向量;

步骤(1‑3‑22):将多模态文本上下文特征向量与文本模态的粗粒度特征向量共同输入文本的多模态注意力函数中,计算每个文本中词汇的注意力权重;

步骤(1‑3‑23):根据每个文本中词汇的注意力权重、文本模态的粗粒度特征向量和bl,通过加权平均计算文本特征向量;

步骤(1‑3‑24):将文本特征向量输入哈希层,计算文本特征向量对应的二进制哈希码。

3.根据权利要求1所述的基于多模态注意力机制的跨模态哈希方法,其特征在于,所述检索过程包括:步骤(2‑1):将待查询的图像或文本输入多模态注意力机制的跨模态哈希网络模型,得到图像或文本对应的二进制哈希码;

步骤(2‑2):将图像的二进制哈希码或者文本的二进制哈希码输入待检索的查询库中,计算该哈希码与检索库中哈希码的汉明距离,依据汉明距离的大小顺序,从小到大依次输出前k个检索文本或者图像。

4.根据权利要求1所述的基于多模态注意力机制的跨模态哈希方法,其特征在于,采用跨模态检索损失函数计算相同类标签的图像和文本之间的相似度,根据图像检索图像、图像检索文本、文本检索文本和文本检索图像的损失函数计算图像与图像之间、图像与文本之间、文本与文本之间、文本与图像之间的相似性。

5.一种基于多模态注意力机制的跨模态哈希系统,包括:训练模块和检索模块,其特征在于:训练模块,其被配置为:将相同语义的图像文本对以及其所属的类标签输入到多模态注意力机制的跨模态哈希网络模型中进行训练,直至多模态注意力机制的跨模态哈希网络模型收敛,得到训练好的多模态注意力机制的跨模态哈希网络模型;

检索模块,其被配置为:将待查询的图像或文本输入训练好的多模态注意力机制的跨模态哈希网络模型,根据相似度的大小,得到检索到的前k个文本或图像;

所述训练模块包括:

步骤(1‑1):将不同类别的图像输入图像模态特征提取网络,提取图像的全局特征向量;

步骤(1‑2):将与步骤(1‑1)中图像数据对应的文本数据输入到文本模态特征提取网络中,提取文本的全局特征向量;

步骤(1‑3):将图像的全局特征向量和文本的全局特征向量分别输入多模态交互门,得到的多模态图像上下文特征向量和多模态文本上下文特征向量分别输入到跨模态哈希网络中,得到的图像特征向量和文本特征向量分别输入哈希层,得到图像特征向量对应的二进制哈希码和文本特征向量对应的二进制哈希码;

所述步骤(1‑1)包括:

步骤(1‑1‑1):采用卷积神经网络CNN提取图像模态的粗粒度特征向量;

步骤(1‑1‑2):将提取的图像模态的粗粒度特征输入均值池化层,得到图像全局上下文特征向量;

步骤(1‑1‑3):将图像模态的粗粒度特征向量输入循环神经网络GRU,得到图像的空间位置特征向量;

步骤(1‑1‑4):将图像全局上下文特征向量与图像的空间位置特征向量相加,得到图像的全局特征向量;

所述步骤(1‑2)包括:

步骤(1‑2‑1):采用循环神经网络中的Bi‑LSTM提取文本模态的粗粒度特征向量;

步骤(1‑2‑2):将文本模态的粗粒度特征向量输入均值池化层,得到文本的全局特征向量;

所述步骤(1‑3)包括:

步骤(1‑3‑11):将图像的全局特征向量输入多模态交互门,得到多模态图像上下文特征向量;

步骤(1‑3‑12):将多模态图像上下文特征向量与图像模态的粗粒度特征向量共同输入图像的多模态注意力函数中,计算每个图像区域的注意力权重;

步骤(1‑3‑13):根据每个图像区域的注意力权重、图像模态的粗粒度特征向量和bm,通过加权平均计算图像特征向量;

步骤(1‑3‑14):将图像特征向量输入哈希层,计算图像特征向量对应的二进制哈希码。

6.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1‑4中任一项所述的基于多模态注意力机制的跨模态哈希方法中的步骤。

7.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1‑4中任一项所述的基于多模态注意力机制的跨模态哈希方法中的步骤。