1.深度对抗注意力跨模态哈希检索方法,其特征是,包括:
注意力学习步骤:获得图像和文本两种模态,利用通道注意力机制,将每个模态的特征表示分为相关的模态特征和不相关的模态特征;
模内对抗学习步骤:通过生成对抗网络将每个模态内的不相关特征补充每个模态的相关特征表示信息,在模内对抗学习中,将模态的相关信息设置为“真”,将模态的无关信息设置为“假”,图像模块和文本模态内对抗学习模块是对称的,所述模内对抗的目标函数定义为:其中θ
模间对抗学习学习步骤:在判别步骤中,将图像模态的相关的模态特征设为“真”,将文本模态的相关的模态特征设为“假”,定义判别器的目标函数,判别器的目标函数定义为:其中,θ
哈希学习步骤:将经过上述学习之后的图像相关特征和文本相关特征映射在汉明空间中,用于进行跨模态检索。
2.如权利要求1所述的深度对抗注意力跨模态哈希检索方法,其特征是,所述通道注意力学习机制采用平均池化的方法收集每个模态的空间信息,最大池化的方法收集每个模态的对象特征。
3.如权利要求1所述的深度对抗注意力跨模态哈希检索方法,其特征是,对于图像模态,获得代表图像模态的平均池化和最大池化的表示特征,将表示特征输入至共享图像网络中,生成一维通道注意力映射;
对于文本模态,获得代表文本特征的平均池化和最大池化的表示特征,将表示特征输入到共享的文本网络中,生成一维通道注意力映射。
4.如权利要求1所述的深度对抗注意力跨模态哈希检索方法,其特征是,对所述图像模态和文本模态,分别定义判别器和生成器的目标函数,将每个模态无关信息补充注意力学习机制突出的相关信息。
5.如权利要求1所述的深度对抗注意力跨模态哈希检索方法,其特征是,在模间对抗学习中,在生成步骤中,将文本模态的相关信息设置为“真”,将图像模态的相关信息设置为“假”,定义生成器的目标函数;
通过模间对抗学习使得两种模态各自的相关特征表示分布均匀。
6.如权利要求1所述的深度对抗注意力跨模态哈希检索方法,其特征是,哈希学习过程中,利用两个哈希层将图像的相关表示及文本的相关表示分别映射成哈希码;
使用两两配对损失函数来衡量哈希码之间的相似性。
7.如权利要求6所述的深度对抗注意力跨模态哈希检索方法,其特征是,哈希学习过程中,基于量化误差定义损失函数,以减少在哈希学习过程中会出现的量化错误。
8.深度对抗注意力跨模态哈希检索系统,其特征是,包括:
注意力学习模块,被配置为:获得图像和文本两种模态,利用通道注意力机制,将每个模态的特征表示分为相关的模态特征和不相关的模态特征;
模内对抗学习模块,被配置为:通过生成对抗网络将每个模态内的不相关特征补充每个模态的相关特征表示信息,在模内对抗学习中,将模态的相关信息设置为“真”,将模态的无关信息设置为“假”,图像模块和文本模态内对抗学习模块是对称的,所述模内对抗的目标函数定义为:其中θ
模间对抗学习模块,被配置为:在判别步骤中,将图像模态的相关的模态特征设为“真”,将文本模态的相关的模态特征设为“假”,定义判别器的目标函数,判别器的目标函数定义为:其中,θ
哈希学习模块,被配置为:将经过上述学习之后的图像相关特征和文本相关特征映射在汉明空间中,用于进行跨模态检索。
9.一种计算机系统,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7任一项所述的方法。