欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2019101943848
申请人: 齐鲁工业大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2025-02-11
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于深度残差网络及注意力的图像描述生成方法,其特征是,该方法包括以下步骤:获取大量的图像样本数据,并对其进行预处理;

提取预处理后的图像样本数据的图像特征;

利用残差神经网络模型对提取的图像特征进行处理,产生图像表示;

将图像表示映射到基于注意力的循环长短期记忆网络语言模型的输入端,利用基于注意力的循环长短期记忆网络语言模型预测图像的词向量,产生图像的描述句子。

2.根据权利要求1所述的基于深度残差网络及注意力的图像描述生成方法,其特征是,所述获取大量的图像样本数据,并对其进行预处理的步骤包括:获取大量的图像样本数据,构建训练集;

从训练集中随机抽取一定数量的图像样本数据,并对这些图像样本数据进行除噪、放大缩小,亮度、对比度、饱和度调整、标准化以及图像的色彩空间转化处理。

3.根据权利要求1所述的基于深度残差网络及注意力的图像描述生成方法,其特征是,所述提取预处理后的图像样本数据的图像特征的步骤包括:将预处理后的图像样本数据输入至深度残差网络模型的每个堆叠层中;

每一个堆叠层的主干部分对输入图像样本数据进行卷积神经网络学习,输出第一特征图;每一个堆叠层的分支部分通过恒等映射输出与第一特征图维度一致的第二特征图,将每一个堆叠层输出的第一特征图和第二特征图相结合,得到每一个堆叠层最终输出的特征图;

通过全连接层将所有堆叠层最终输出的特征图进行叠加,得到深度残差网络模型最终输出的特征图。

4.根据权利要求1所述的基于深度残差网络及注意力的图像描述生成方法,其特征是,所述利用残差神经网络模型对提取的图像特征进行处理的步骤包括:将图像特征嵌入到一个固定的矢量中,并对图像特征进行线性变换,得到图像表示,并将产生的图像表示映射到基于注意力的循环长短期记忆网络语言模型的输入端。

5.根据权利要求1所述的基于深度残差网络及注意力的图像描述生成方法,其特征是,所述基于注意力的循环长短期记忆网络语言模型为:x-1=Inception-resnet(I);

xt=WeSt,t=0…N-1;

pt+1=BiLSTM(xt)

其中,Inception-resnet(I)为图像I的图像表示,x-1为循环长短期记忆网络模型的第一个输入;St表示单词t的|V|×1维的独热向量;We是一个512×|V|的字嵌入矩阵;xt为t时刻循环长短期记忆网络语言模型输出的词向量;pt+1为t+1时刻循环长短期记忆网络语言模型预测的词向量。

6.根据权利要求1所述的基于深度残差网络及注意力的图像描述生成方法,其特征是,所述利用基于注意力的循环长短期记忆网络语言模型预测图像的词向量,产生图像的描述句子的步骤包括:初始化基于注意力的循环长短期记忆网络语言模型;

将图像表示输入基于注意力的循环长短期记忆网络语言模型,并输入句子标记的特殊开始单词和上一时刻基于注意力的循环长短期记忆网络语言模型预测的单词;

将每个单词嵌入到向量集中,对整个向量集中单词进行独热编码,得到独热编码后的词向量;

将经过独热编码后的词向量、提取的图像特征以及上一时刻基于注意力的循环长短期记忆网络语言模型的输出状态联合输入到基于注意力的循环长短期记忆网络语言模型中,得到每一个图像特征的注意力权重;

将每一个图像特征的注意力权重与该图像特征的乘积相求和,得到当前时刻基于注意力的循环长短期记忆网络语言模型预测的词向量;

将基于注意力的循环长短期记忆网络模型当前时刻预测的词向量作为下一时刻的循环长短期记忆网络语言模型的词向量,重复上述步骤,直至得到所有时刻基于注意力的循环长短期记忆网络语言模型预测的词向量;

选取每一时刻基于注意力的循环长短期记忆网络语言模型预测的词向量中概率最大的词连接成图像的描述句子。

7.根据权利要求6所述的基于深度残差网络及注意力的图像描述生成方法,其特征是,所述图像特征的注意力权重计算方法为:αt=softmax(at)

其中,xi为提取的图像特征xi决定,参数 Wvα、Whα为待学习的参数,αt为图像特征xi的注意力权重。

8.一种基于深度残差网络及注意力的图像描述生成装置,其特征是,包括:样本数据获取模块,用于获取大量的图像样本数据,并对其进行预处理;

图像特征提取模块,用于提取预处理后的图像样本数据的图像特征;

图像表示产生模块,用于利用残差神经网络模型对提取的图像特征进行处理,产生图像表示;

描述句子产生模块,用于将图像表示映射到基于注意力的循环长短期记忆网络语言模型的输入端,利用基于注意力的循环长短期记忆网络语言模型预测图像的词向量,产生图像的描述句子。

9.一种计算机可读存储介质,其中存储有多条指令,其特征是,所述指令适于由终端设备的处理器加载并执行如权利要求1至7中任一项所述的一种基于深度残差网络及注意力的图像描述生成方法。

10.一种终端设备,包括处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,其特征是,所述指令适于由处理器加载并执行如权利要求1至7中任一项所述的一种基于深度残差网络及注意力的图像描述生成方法。