1.一种基于多级注意力的细粒度图像描述方法,其特征在于,包括:
利用视觉注意力机制融合图像的全局特征和局部细粒度特征,得到图像的第一融合特征;
将融合特征输入至多标签分类网络中,生成所有标签的分布,得到图像标签的视觉注意信息和语义注意信息;
利用注意力机制将图像的第一融合特征和图像标签的视觉注意信息和语义注意信息融合,生成图像特定区域的文本描述;
将图像特定区域的文本描述进行编号后输入至基于注意力的LSTM语言生成模型,输出细粒度的图像描述。
2.如权利要求1所述的基于多级注意力的细粒度图像描述方法,其特征在于,使用深度残差网络Inception-resnet模型提取图像的全局特征。
3.如权利要求1所述的基于多级注意力的细粒度图像描述方法,其特征在于,采用深度网络RetinaNet提取图像的局部特征。
4.如权利要求1所述的基于多级注意力的细粒度图像描述方法,其特征在于,基于注意力的LSTM语言生成模型包括LSTM网络,LSTM网络包含注意力机制;LSTM网络的最后一层输出端与Softmax层相连,Softmax层用于选取LSTM网络每一时刻的输出结果中概率最大的词并连接成描述句子,作为基于注意力的LSTM语言生成模型的最终输出结果。
5.一种基于多级注意力的细粒度图像描述系统,其特征在于,包括:
特征融合模块,其用于利用视觉注意力机制融合图像的全局特征和局部细粒度特征,得到图像的第一融合特征;
标签信息生成模块,其用于将融合特征输入至多标签分类网络中,生成所有标签的分布,得到图像标签的视觉注意信息和语义注意信息;
文本描述生成模块,其用于利用注意力机制将图像的第一融合特征和图像标签的视觉注意信息和语义注意信息融合,生成图像特定区域的文本描述;
细粒度图像描述生成模块,其用于将图像特定区域的文本描述进行编号后输入至基于注意力的LSTM语言生成模型,输出细粒度的图像描述。
6.如权利要求5所述的基于多级注意力的细粒度图像描述系统,其特征在于,在所述特征融合模块中,使用深度残差网络Inception-resnet模型提取图像的全局特征。
7.如权利要求5所述的基于多级注意力的细粒度图像描述系统,其特征在于,在所述特征融合模块中,采用深度网络RetinaNet提取图像的局部特征。
8.如权利要求5所述的基于多级注意力的细粒度图像描述系统,其特征在于,基于注意力的LSTM语言生成模型包括LSTM网络,LSTM网络包含注意力机制;LSTM网络的最后一层输出端与Softmax层相连,Softmax层用于选取LSTM网络每一时刻的输出结果中概率最大的词并连接成描述句子,作为基于注意力的LSTM语言生成模型的最终输出结果。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-4中任一项所述的基于多级注意力的细粒度图像描述方法中的步骤。
10.一种计算机终端,其包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-4中任一项所述的基于多级注意力的细粒度图像描述方法中的步骤。