欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2021116629070
申请人: 武汉大学
专利类型:发明专利
专利状态:授权未缴费
专利领域: 计算;推算;计数
更新日期:2024-07-19
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于细粒度语义特征差异的图像文本匹配判别方法,其特征在于,包括以下步骤:步骤1:给定一张输入图像

所述图像的视觉特征集合为:

其中,M表示图像的视觉特征数量,d

所述文本的序列特征集合为:

其中,N表示描述文本中单词的数目,d

步骤2:分别将图像的视觉特征和文本的序列特征映射到联合视觉语义空间中,得到图像语义特征向量与文本语义特征向量其中,

步骤3:将图像语义特征向量与文本语义特征向量输入到细粒度语义特征差异分析模块中,预测图像与文本是否匹配;

所述细粒度语义特征差异分析模块,包括输入和输出两个全连接层以及之间的BN层,ReLU激活函数层和Dropout层;输入全连接层的输入维度为1024,输出为512维,输出全连接层输入为512维,输出维度为2;对于1024维的图文语义特征向量,输入到第一个全连接层后得到512维的特征,再经过BN层,ReLU激活函数层和Dropout层后输入到第二个全连接层后得到维度为2的向量输出,从输出中即可得到图像与文本匹配的概率;

步骤3的具体实现包括以下子步骤:

步骤3.1:对图像语义特征向量与文本语义特征向量进行相减操作,得到图像与文本的图文语义差异特征向量f其中,图文语义差异特征向量

步骤3.2:将图文语义差异特征向量f

O=L

步骤3.3:对输出O进行Softmax运算,得到图像与文本匹配的概率;即为图像与文本匹配的概率作为图像与文本的相似度,相似度高于阈值的图像文本对判别为匹配,低于阈值的图像文本对判别为不匹配;统计训练数据中图像-文本样本对的相似度数值分布,图像与文本匹配的正样本对所对应的相似度会聚集在较高的数值范围内,而负样本对的相似度数值则较低,以此数值分布为依据划定阈值分界值。

2.根据权利要求1所述的基于细粒度语义特征差异的图像文本匹配判别方法,其特征在于:步骤1中所述提取图像的视觉特征,是将bottom-up attention特征提取模块用于图像的视觉区域特征提取;且训练新网络时,在前N轮训练过程中固定bottom-up attention特征提取模块的参数,之后取消参数固定,在训练过程中通过反向传播更新bottom-upattention特征提取模块的参数,使模块提取出的特征具有更贴合本方法的语义表达;其中,N为预设值。

3.根据权利要求1所述的基于细粒度语义特征差异的图像文本匹配判别方法,其特征在于:步骤1中所述提取文本的序列特征,是将BERT特征提取模块用于文本的序列特征提取;且训练新网络时,在前M轮训练过程中固定BERT特征提取模块的参数,之后取消参数固定,在训练过程中通过反向传播更新BERT特征提取模块的参数,使模块提取出的特征具有更贴合本方法的语义表达;其中,M为预设值。

4.根据权利要求1-3任意一项所述的基于细粒度语义特征差异的图像文本匹配判别方法,其特征在于:选取跨模态图像文本检索方法模型架构与bottom-up attention特征提取模块和BERT特征提取模块构成主体网络;训练中对主体网络参数和细粒度语义特征差异分析模块参数采用轮次间隔交替更新的策略,更新主体网络参数时固定细粒度语义特征差异分析模块参数,在细粒度语义特征差异分析模块参数更新阶段固定主体网络参数;同时对主体网络参数更新和细粒度语义特征差异分析模块参数更新阶段采用不同的负样本选取策略,主体网络参数更新阶段采用传统的负样本选取策略,对每张图片,随机从数据中选取不匹配的描述文本即可;在细粒度语义特征差异分析模块参数更新阶段采用细粒度的负样本选取策略,对每张图片选取与正确描述文本仅具有细微的实体或属性错误的描述文本,即数据集中与该图片对应的细粒度错误描述文本。

5.一种基于细粒度语义特征差异的图像文本匹配判别系统,用于实现权利要求1-4任一项所述的方法;其特征在于,包括以下模块:模块1,用于给定一张输入图像

所述图像的视觉特征集合为:

其中,M表示图像的视觉特征数量,d

所述文本的序列特征集合为:

其中,N表示描述文本中单词的数目,d

模块2,用于分别将图像的视觉特征和文本的序列特征映射到联合视觉语义空间中,得到图像语义特征向量与文本语义特征向量其中,

模块3,用于将图像语义特征向量与文本语义特征向量输入到细粒度语义特征差异分析模块中,预测图像与文本是否匹配;

所述细粒度语义特征差异分析模块,包括输入和输出两个全连接层以及之间的BN层,ReLU激活函数层和Dropout层;输入全连接层的输入维度为1024,输出为512维,输出全连接层输入为512维,输出维度为2;对于1024维的图文语义特征向量,输入到第一个全连接层后得到512维的特征,再经过BN层,ReLU激活函数层和Dropout层后输入到第二个全连接层后得到维度为2的向量输出,从输出中即可得到图像与文本匹配的概率。