1.一种基于卷积神经网络、注意力机制及自注意力变换器的视觉描述方法,其特征在于包括以下步骤:第1、整体网络的构建:
第1.1、将ResNet101作为主干网络,使用其全连接层输出作为图像特征输入后续网络;
第1.2、通过将图像特征拆分为16个子特征,将16个子特征分别送入融合注意力单元即AMNet,进行加权融合,保留有效图片特征,输出全局融合特征;
第1.3、通过循环神经网络模块对多张图的全局融合特征进行级联,随后依次输入transformer结构;
第1.4、利用自注意力transformer解码获得连续文本描述;
步骤第1.2中将图像特征分割为16个子特征,依次输入融合注意力单元,注意力单元将融合后的特征进行输出,其中每一个子特征的时间步的输入为当前子特征以及通过注意力模块融合后的前序时间步融合图像特征,输出两个输入的融合图像特征,输入为最后时间步的注意力单元输出即为16个子特征的融合特征,其保留完整语义信息,同时对于图像特征中的干扰信息以及无效背景信息进行了有效剔除;
假设xi是注意力模块的输入特征,gi为输出融合图像特征,则上述过程描述为:gi=AM(xi),
其中AM为注意力模块,其具体定义如下:
zt=σ(Wz·[ht‑1,xt])
rt=σ(Wr·[ht‑1,xt])
其中zt和rt分别表示更新门和重置门;ht表示通过更新门和重置门控制的注意力模块输出。
2.如权利要求1所述的基于卷积神经网络、注意力机制及自注意力变换器的视觉描述方法,其特征在于,步骤第1.1中构建了基础网络,采用改写的ResNet,使用全连接层的特征获得图像特征。
3.如权利要求1所述的基于卷积神经网络、注意力机制及自注意力变换器的视觉描述方法,其特征在于,步骤第1.3中对于多张图片的全局融合特征方案类如下:将每张图片的融合图像特征gi作为循环神经网络Rnn的输入中并与其输出相拼接得到输出ci:ri=Rnn(gi),
ci=concat(gi,ri),
其中Rnn是用于全局特征融合的循环神经网络,本方案中使用LSTM,concat的作用是拼接gi与ci。
4.如权利要求1所述的基于卷积神经网络、注意力机制及自注意力变换器的视觉描述方法,其特征在于,步骤第1.4中使用transformer作为解码器依次将融合特征ci作为输入进行解码获得输出ti:ti=transformer(ci)
最后,将上述向量通过词嵌入矩阵得到视觉叙事输出。