1.一种基于注意力反馈机制的图像自动语句标注方法,其特征在于,包括:构建所述输入数据,给定一系列的图像χ={x1,x2,...,xN}作为训练集,其中N是样本数量;图像xi对应的语句表述为Si={si,1,si,2,...,si,T},T代表句子Si的长度;
构建CNN-RNN模型,进行正向文本成;
从生成的文本中提取关键词注意力反向矫正图像注意力;
利用上述从文本中提取出的关注特征,对原本的图像关注特征进行注意力矫正。
2.根据权利要求1所述的基于注意力反馈机制的图像自动语句标注方法,其特征在于,输入数据为RGB三通道图像,缩放为预定大小。
3.根据权利要求2所述的基于注意力反馈机制的图像自动语句标注方法,其特征在于,所述预定大小是256*256。
4.根据权利要求1所述的基于注意力反馈机制的图像自动语句标注方法,其特征在于,“构建CNN-RNN模型,进行正向文本成;”具体包括:采用VGG-16模型,从第二个全连接层提取长度为4096的图像特征fconv={a1,a2,...,aL}利用采用长短期记忆模型(Long Short-Term Memory,LSTM)处理序列的能力,指导每个单词的生成,生成完整的句子:gt=tanh(Wxcyt+Whcht-1+Wzczt+bc), (2)it=σ(Wxiyt+Whiht-1+Wzizt+bi),(3)ft=σ(Wxfyt+Whfht-1+Wzfzt+bf), (4)ot=σ(Wxoyt+Whoht-1+Wzozt+bo),(5)ct=ft⊙ct-1+it⊙gt, (6)ht=ot⊙tanh(ct), (7)si,t+1=softmax(Whht+bh), (8)计算t步骤的时候图像中的注意力αt={αt,1,αt,2,...,αt,L}的第i个元素可由下式计算得出:计算αt中每一个元素的能量大小et={et,1,et,2,...,et,L};g(·)代表一个简单的多层感知机(Multi-Layer Perception,MLP):et={et,1,et,2,...,et,L}
计算基于文本内容的注意力的图像关注特征zt,带入“利用采用长短期记忆模型(Long Short-Term Memory,LSTM)处理序列的能力,指导每个单词的生成,生成完整的句子:”中计算利用包含关注信息的图像特征来初始化模型,包括初始化图像中的关注区域和初始化LSTM;
初始化图像中的关注区域需对每个区域进行注意力均匀初始化:其中 1代表第一个循环;利用初始化的注意力,对从图像中提取的特征fconv进行加权可得:
在每一次循环中利用加了关注的图像特征,可以初始化LSTM的记忆单元c和隐藏状态h:经由正向文本生成过程,LSTM的每一步都将产生一个单词,生成句子。
5.根据权利要求1所述的基于注意力反馈机制的图像自动语句标注方法,其特征在于,“从生成的文本中提取关键词注意力反向矫正图像注意力;”具体包括:在文本上的注意力β={β1,β2,...,βT},在βt上的注意力计算如下模型从生成文本中提取出文本上的关注特征,该特征包含了对每个单词的重要性分析,对模型认为是关键词的单词加大权重,反之减小权重。
6.根据权利要求1所述的基于注意力反馈机制的图像自动语句标注方法,其特征在于,“利用上述从文本中提取出的关注特征,对原本的图像关注特征进行注意力矫正。”利用图像的关注特征 和来自文本中的关注特征r可以计算出图像和文本的联合关注特征:H=Whaai+Whrr+bh,(18)
重新计算图像中的注意力可得:
λk=softmax(tanh(H)) (19)利用公式(13),更新关注特征 利用该信息在下一个循环中初始化LSTM以指导文本的生成。
7.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1到6任一项所述方法的步骤。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1到6任一项所述方法的步骤。
9.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1到6任一项所述的方法。