知嘟嘟-专利交易平台_专利购买_专利出售-买专利,上嘟嘟

欢迎来到知嘟嘟！联系电话：13095918853 卖家免费入驻，海量在线求购！卖家免费入驻，海量在线求购！

嘟嘟会员

帮助中心网站地图

查出售查高校查求购查年费

我要发布

首页转移热力图Hot 专利交易委托购买高校专区科技服务专利求购年费查询行业资讯

联系电话：13095918853

知嘟嘟经纪人

基于多级注意力的细粒度图像描述方法及系统

面议

专利号： 2019107640552

申请人：齐鲁工业大学

专利类型：发明专利

专利状态：已下证

专利领域：计算；推算；计数

更新日期：2025-02-11

缴费截止日期：暂无

价格&联系人

年费信息

委托购买

专利简介

专利详情

委托购买说明

需准备材料

常见问题

摘要:

权利要求书:

1.一种基于多级注意力的细粒度图像描述方法，其特征在于，包括：

利用视觉注意力机制融合图像的全局特征和局部细粒度特征，得到图像的第一融合特征；

将融合特征输入至多标签分类网络中，生成所有标签的分布，得到图像标签的视觉注意信息和语义注意信息；

利用注意力机制将图像的第一融合特征和图像标签的视觉注意信息和语义注意信息融合，生成图像特定区域的文本描述；

将图像特定区域的文本描述进行编号后输入至基于注意力的LSTM语言生成模型，输出细粒度的图像描述。

2.如权利要求1所述的基于多级注意力的细粒度图像描述方法，其特征在于，使用深度残差网络Inception-resnet模型提取图像的全局特征。

3.如权利要求1所述的基于多级注意力的细粒度图像描述方法，其特征在于，采用深度网络RetinaNet提取图像的局部特征。

4.如权利要求1所述的基于多级注意力的细粒度图像描述方法，其特征在于，基于注意力的LSTM语言生成模型包括LSTM网络，LSTM网络包含注意力机制；LSTM网络的最后一层输出端与Softmax层相连，Softmax层用于选取LSTM网络每一时刻的输出结果中概率最大的词并连接成描述句子，作为基于注意力的LSTM语言生成模型的最终输出结果。

5.一种基于多级注意力的细粒度图像描述系统，其特征在于，包括：

特征融合模块，其用于利用视觉注意力机制融合图像的全局特征和局部细粒度特征，得到图像的第一融合特征；

标签信息生成模块，其用于将融合特征输入至多标签分类网络中，生成所有标签的分布，得到图像标签的视觉注意信息和语义注意信息；

文本描述生成模块，其用于利用注意力机制将图像的第一融合特征和图像标签的视觉注意信息和语义注意信息融合，生成图像特定区域的文本描述；

细粒度图像描述生成模块，其用于将图像特定区域的文本描述进行编号后输入至基于注意力的LSTM语言生成模型，输出细粒度的图像描述。

6.如权利要求5所述的基于多级注意力的细粒度图像描述系统，其特征在于，在所述特征融合模块中，使用深度残差网络Inception-resnet模型提取图像的全局特征。

7.如权利要求5所述的基于多级注意力的细粒度图像描述系统，其特征在于，在所述特征融合模块中，采用深度网络RetinaNet提取图像的局部特征。

8.如权利要求5所述的基于多级注意力的细粒度图像描述系统，其特征在于，基于注意力的LSTM语言生成模型包括LSTM网络，LSTM网络包含注意力机制；LSTM网络的最后一层输出端与Softmax层相连，Softmax层用于选取LSTM网络每一时刻的输出结果中概率最大的词并连接成描述句子，作为基于注意力的LSTM语言生成模型的最终输出结果。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-4中任一项所述的基于多级注意力的细粒度图像描述方法中的步骤。

10.一种计算机终端，其包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-4中任一项所述的基于多级注意力的细粒度图像描述方法中的步骤。