欢迎来到知嘟嘟! 联系电话:13336804447 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13336804447
知嘟嘟经纪人
收藏
专利号: 2018107924263
申请人: 苏州科技大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2026-04-02
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于注意力反馈机制的图像自动语句标注方法,其特征在于,包括:构建所述输入数据,给定一系列的图像χ={x1,x2,...,xN}作为训练集,其中N是样本数量;图像xi对应的语句表述为Si={si,1,si,2,...,si,T},T代表句子Si的长度;

构建CNN-RNN模型,进行正向文本成;

从生成的文本中提取关键词注意力反向矫正图像注意力;

利用上述从文本中提取出的关注特征,对原本的图像关注特征进行注意力矫正。

2.根据权利要求1所述的基于注意力反馈机制的图像自动语句标注方法,其特征在于,输入数据为RGB三通道图像,缩放为预定大小。

3.根据权利要求2所述的基于注意力反馈机制的图像自动语句标注方法,其特征在于,所述预定大小是256*256。

4.根据权利要求1所述的基于注意力反馈机制的图像自动语句标注方法,其特征在于,“构建CNN-RNN模型,进行正向文本成;”具体包括:采用VGG-16模型,从第二个全连接层提取长度为4096的图像特征fconv={a1,a2,...,aL}利用采用长短期记忆模型(Long Short-Term Memory,LSTM)处理序列的能力,指导每个单词的生成,生成完整的句子:gt=tanh(Wxcyt+Whcht-1+Wzczt+bc),  (2)it=σ(Wxiyt+Whiht-1+Wzizt+bi),(3)ft=σ(Wxfyt+Whfht-1+Wzfzt+bf),  (4)ot=σ(Wxoyt+Whoht-1+Wzozt+bo),(5)ct=ft⊙ct-1+it⊙gt,     (6)ht=ot⊙tanh(ct),      (7)si,t+1=softmax(Whht+bh),  (8)计算t步骤的时候图像中的注意力αt={αt,1,αt,2,...,αt,L}的第i个元素可由下式计算得出:计算αt中每一个元素的能量大小et={et,1,et,2,...,et,L};g(·)代表一个简单的多层感知机(Multi-Layer Perception,MLP):et={et,1,et,2,...,et,L}

计算基于文本内容的注意力的图像关注特征zt,带入“利用采用长短期记忆模型(Long Short-Term Memory,LSTM)处理序列的能力,指导每个单词的生成,生成完整的句子:”中计算利用包含关注信息的图像特征来初始化模型,包括初始化图像中的关注区域和初始化LSTM;

初始化图像中的关注区域需对每个区域进行注意力均匀初始化:其中 1代表第一个循环;利用初始化的注意力,对从图像中提取的特征fconv进行加权可得:

在每一次循环中利用加了关注的图像特征,可以初始化LSTM的记忆单元c和隐藏状态h:经由正向文本生成过程,LSTM的每一步都将产生一个单词,生成句子。

5.根据权利要求1所述的基于注意力反馈机制的图像自动语句标注方法,其特征在于,“从生成的文本中提取关键词注意力反向矫正图像注意力;”具体包括:在文本上的注意力β={β1,β2,...,βT},在βt上的注意力计算如下模型从生成文本中提取出文本上的关注特征,该特征包含了对每个单词的重要性分析,对模型认为是关键词的单词加大权重,反之减小权重。

6.根据权利要求1所述的基于注意力反馈机制的图像自动语句标注方法,其特征在于,“利用上述从文本中提取出的关注特征,对原本的图像关注特征进行注意力矫正。”利用图像的关注特征 和来自文本中的关注特征r可以计算出图像和文本的联合关注特征:H=Whaai+Whrr+bh,(18)

重新计算图像中的注意力可得:

λk=softmax(tanh(H))     (19)利用公式(13),更新关注特征 利用该信息在下一个循环中初始化LSTM以指导文本的生成。

7.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1到6任一项所述方法的步骤。

8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1到6任一项所述方法的步骤。

9.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1到6任一项所述的方法。