1.一种基于多目标关联深度推理的图像问答方法,其特征在于包括如下步骤:步骤(1)、数据预处理,对图像和文本数据提取特征
首先是对图像预处理:
使用Faster-RCNN深度神经网络结构检测图像中包含的目标实体;对图像提取视觉特征V以及图像中包含各目标尺寸、坐标信息的几何特征G;
对文本数据进行预处理:
统计给定的问题文本的句子长度根据统计信息设置问题文本的最大长度;构建问题文本词汇字典,将问题的词语替换为描述词汇字典中的索引值,然后经过LSTM,从而将问题文本转化为向量q;
步骤(2)、基于候选框几何特征增强的注意力模块
对于输入的三个特征候选框位置的几何特征G、视觉特征V和注意力权重向量向量m;
首先对注意力权重向量向量m进行顺序编码,将其根据权值大小顺序转化为向量后,映射到高维度与同样映射到高维度的视觉特征V相加,其输出经过层归一化处理得到VA;
然后将几何特征G通过线性层映射后经过激活函数ReLU得到GR;将VA和GR输入候选框关系组件进行推理得到Orelation,将Orelation经过线性层和sigmoid函数与原始的注意力权重向量向量m相乘得到新的注意力权重向量向量步骤(3)、构建深度神经网络
首先将问题文本中根据词汇字典转换为索引值向量;然后将该向量经过高维映射传入长短期记忆网络(Long Short Term Memory,LSTM),将其输出的向量q和使用Faster R-CNN获得的视觉特征V通过哈达玛积(Hadamard product)的方式融合,并通过注意力模块得到各实体特征的注意力权重向量m;将注意力权重向量m、视觉特征V以及几何特征G输入基于候选框几何特征增强的适应性注意力模块,利用视觉特征和候选框位置的几何特征进行推理,对注意力权重向量进行重排序,得到新的注意力权重向量 将注意力权重向量 与视觉特征V乘积融合后做加权平均得到新的视觉特征V,将视觉特征 与问题文本向量q通过哈达玛积融合经过softmax函数产生概率,并将此概率输出作为网络的输出预测值;
步骤(4)、模型训练
根据产生的预测值同该图像的实际描述的差异,并利用反向传播算法对步骤(3)中神经网络的模型参数进行训练,直至整个网络模型收敛。
2.根据权利要求1所述的一种基于多目标关联深度推理的图像问答方法,其特征在于步骤(1)具体实现如下:
1-1.对图像i进行特征提取,使用现有的深度神经网络Faster-RCNN提取特征,提取的特征包括图像中包含的k个目标的视觉特征V和几何特征G,其中V={v1,v2,...,vk},G={g1,g2,...,gk},k∈[10,100]且单个目标的视觉向量为 单个目标的几何特征为gi={x,y,w,h},其中 其中x,y,w,h为几何特征的位置参数,分别表示图像中实体所在候选框的横坐标、纵坐标以及宽度和高度;
1-2.对于给定的问题文本,首先统计数据集中问题文本中不同的词,并将其记录在字典中;根据单词字典将单词列表中的词语转化成索引值,从而将问题文本转化成固定长度的索引向量,其具体公式如下:其中 是单词wk在字典中的索引值,I表示问题文本的长度。
3.根据权利要求2所述的一种基于多目标关联深度推理的图像问答方法,其特征在于步骤(2)所述的基于候选框几何特征增强的适应性注意力模块深度推理网络,具体如下:
2-1.首先将输入的注意力权重向量向量m进行处理;将m中的各目标注意力权重向量m{m1,m2,...,mk}的值排序的序号pos进行编码, 其具体公式如下:其中 pos∈[1,2,...,k],得到基于注意力权重向量m的矩阵
2-2.将矩阵PE和视觉特征V分别经过不同的线性层后相加,其输出经过层归一化处理得到VA,其具体公式如下:VA=LayerNorm(WPEPET+WVVT) (公式3)其中
2-3.对几何特征G进行关联计算,将其经过线性层得到GR,其具体公式如下:GR=WGΩ(G)T (公式4)
其中,m,n∈[1,2,...,k],GE使用公式(2)编码,
2-4.将VA和GR输入关联模块进行推理得到Orelation,具体公式如下:Qrelation=softmax(log(GR)+VR)·(WOVA+bO) (公式7)其中
2-5.将Orelation经过全连接层后,再经过sigmoid函数与原始的注意力权重向量m相乘得到新的注意力权重向量 具体公式如下:其中
4.根据权利要求3所述的一种基于多目标关联深度推理的图像问答方法,其特征在于步骤(3)所述的构建深度神经网络,具体如下:
3-1.将问题文本向量q与视觉特征V经过全连接层的线性变换映射至公共空间然后使用哈达玛积融合,Ffusion表示公共空间上的融合特征;Wr和Wq分别表示将视觉特征V和当前状态信息q进行线性变换的对应全连接层参数,符号 表示两矩阵采用哈达玛乘积;Wm表示将融合特征降维并产生注意力权重向量分布的全连接层参数,初始注意力权重向量向量m,j表示当前计算第j
个区域注意力权重向量;具体公式如下:
m=softmax(WmFfusion+bm) (公式10)
3-2.根据步骤(2)将m、V以及G输入基于候选框几何特征增强的适应性注意力模块,利用V以及G的特征进行推理,对m进行重排序,得到新的注意力特征
3-3.通过 与V的特征乘积后做加权平均得到的视觉特征向量 具体公式如下:
5.根据权利要求4所述的一种基于多目标关联深度推理的图像问答方法,其特征在于步骤(4)所述的训练模型,具体如下:VQA-v2.0数据集中的问答对由多人回答,因此同一个问题可能有不同的正确回答;先前的图像问答模型将最高票数视为唯一正确回答,并对其进行独热编码(one-hot encoding);因为正确回答具有多元性,故对同一问题的全部回答进行投票,按照票数确定该正确答案在全部正确答案中的权重;并且使用Kullback-Leibler divergence损失函数,若N表示回答词汇表的长度;Predict表示预测值分布,GT表示真实值;则定义如所示: