欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2018105518759
申请人: 陕西师范大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-01-05
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于多注意力和多尺度的图像描述方法,其特征在于由以下步骤组成:(1)选取用以提取图像特征的图像检测模型

选取卷积神经网络区域目标检测方法构建成目标检测模型,使用帕斯卡视觉目标分类

2007数据集或帕斯卡视觉目标分类2012数据集对目标检测模型预训练,选取训练中目标检测效果最好的模型作为提取图像特征的目标检测模型;

(2)划分网络训练集、验证集、测试集

将微软上下文常见对象2014数据集划分为网络训练集、验证集、测试集,数据集划分方法为:在数据集中随机抽取总样本的90%作为网络训练集,总样本的5%作为验证集,总样本的剩余5%作为测试集;

(3)提取图像特征

将经过预训练的目标检测模型,使用101层残差结构的区域目标检测模型提取图像卷积数值特征,采用平均池化方法将图像卷积数值特征分别转化成14×14大小的数值特征图;

(4)构建注意力循环神经网络模型

注意力循环神经网络包含注意力特征映射模块、循环神经网络语言解码模块,注意力特征映射模块与循环神经网络语言解码模块相连,构建成注意力循环神经网络模型;

所述的注意力特征映射模块为:

注意力特征映射模块分为两个部分,包括网络状态 和提取的卷积层中各个数值特征Vi,注意力特征映射模块如下式所示:αt=softmax(at)

式中参数 Wva、Wha均为待学习的参数,αt为注意力权重,输入注意力特征映射模块,输出带有参数的如下所示的图像特征:式中vi表示图像卷积层中分割出的第i个区域平均池化卷积特征,ct为最后的输出结果,i、t为有限的正整数;

不同层次的数值特征输入不同的注意力模型的方法为:低层卷积数值特征连入位于循环神经网络模型低层的注意力模型中,高层卷积数值特征连入位于循环神经网络模型高层的注意力模型中;

所述的循环神经网络语言解码模块为:该模块包括六层长短期记忆网络和一层Softmax网络,其中第一层长短期记忆网络的输入包括xt, 三部分, 表示上一时刻第n层,即最终层,长短期记忆网络的输出状态,其中t表示当前时刻,t‑1表示前一时刻,xt表示经过热独编码后的词向量,是图像高层平均池化特征, 为:其中vi为第i个区域的特征,将xt, 三部分输入语言模型的第一层长短期记忆网络结构中,得到循环神经网络语言解码模块;

(5)训练注意力循环神经网络模型

将网络训练集输入步骤(1)的目标检测模型,经过步骤(3)提取图像在不同深度卷积层上的数值特征图,输入步骤(4)构建的注意力循环神经网络模型中,提取数据集中所有描述构成单词表以及单词向量,通过使用自适应矩估计优化方法动态调整学习率来训练注意力循环神经网络模型,使用交叉熵损失函数LXE(θ)作为损失函数:其中 θ分别为目标语言的真实序列和图像描述生成模型解码器的参数,是长短期记忆网络解码器输出单词 的概率;

训练注意力循环神经网络模型时,采用集束搜索方法训练注意力循环神经网络模型,再使用自鉴别序列训练强化学习方法训练注意力循环神经网络模型;

训练完成后,使用图像验证集测试训练好的注意力循环神经网络模型效果,并调整模型参数,得到注意力循环神经网络模型;

(6)图像描述

将步骤(2)得到的测试集输入步骤(5)训练好的注意力循环神经网络模型中,在该模型中,依次选取每个时间步概率最大的单词作为当前时间步的结果,将以上单词按照产生顺序连接并作为网络最后的输出,完成图像描述。

2.根据权利要求1所述的基于多注意力和多尺度的图像描述方法,其特征在于在构建多注意力神经网络步骤(3)中,所述的使用101层残差结构的区域目标检测模型提取图像卷积数值特征为:在101层残差结构的区域目标检测模型的残差网络第一个最大池化层中提取卷积数值特征,并分别在该最大池化层后的每一组残差结构内最后的卷积层中提取卷积数值特征;

卷积数值特征的提取方法为:

V′={v1,…,vk},

*

式中V 表示以上k个区域的k个特征的集合,其中每一个特征代表了图像的一个显著区域,vk表示图像卷积层中分割出的第k个区域平均池化卷积特征,k为有限的正整数。

3.根据权利要求1所述的基于多注意力和多尺度的图像描述方法,其特征在于:在构建多注意力多尺度循环神经网络步骤(4)中,所述的注意力特征映射模块与循环神经网络语言解码模块相连方式为:依次连接循环神经网络解码模块中每一层循环神经网络和残差连接每一层循环神经网络,第一层循环神经网络的输出与第一层注意力网络的输入相连,第一层注意力网络的输出与第二层循环神经网络的输入相连,第二层循环神经网络的输出与第二层注意力网络的输入相连,第二层注意力网络的输出与第三层循环神经网络的输入相连,第三层循环神经网络的输出与第三层注意力网络的输入相连,第三层注意力网络的输出与第四层循环神经网络的输入相连,第四层循环神经网络的输出与第四层注意力网络的输入相连,第四层注意力网络的输出与第五层循环神经网络的输入相连,第五层循环神经网络的输出与第五层注意力网络的输入相连,第五层注意力网络的输出与第六层循环神经网络的输入相连;

所述的残差连接每一层循环神经网络的方法为:第一层循环神经网络的输出与第三层循环神经网络的输入相连,第二层循环神经网络的输出与第四层循环神经网络的输入相连,第三层循环神经网络的输出与第五层循环神经网络的输入相连,第四层循环神经网络的输出与第六层循环神经网络的输入相连。