欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2020102545056
申请人: 浙江工业大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2023-12-11
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于图卷积神经网络的跨模态检索方法,其特征在于,所述方法包括以下步骤:步骤一、网络构建,过程如下:

步骤1.1:该深度学习网络主要框架由一个图像图卷积模型、一个文本图卷积模型及一个典型关联分析模型组成;

步骤1.2:其中图像图卷积模型有图像特征提取模型与图卷积神经网络结合组成,文本图卷积模型由文本特征提取模型与图卷积神经网络结合组成,图像特征提取模型选用预训练的ResNet-101卷积神经网络,文本特征提取模型选用预训练的BERT模型;

步骤1.3:典型关联分析模型的两路输入部分各接一个空间金字塔池化层与一个全连接层,全连接层后面接ReLU激活函数;

步骤1.4:最后连接到典型关联分析范式层,包括典型关联分析函数与损失函数,选用的损失函数为Pairwise排序损失;

步骤二、数据集预处理,过程如下:

步骤2.1:将用于正式训练的多模态数据集包含成对的图像、文本、图像关联数据和文本关联数据三种模态的数据,将该数据集按照对分为训练集Q和测试集Q’两部分;

步骤2.2:对用于提取特征的两个图卷积模型使用多标签分类数据集进行预训练微调参数;

步骤2.3:将预训练好的图卷积模型参数读入跨模态检索模型的对应图卷积模型处;

步骤三、网络训练,过程如下:

步骤3.1:将Q中每个训练样本中的图像与文本作为两路输入送入跨模态检索模型;

步骤3.2:对图像使用卷积神经网络提取图像特征,对文本使用BERT提取文本特征;

步骤3.3:将提取的特征分别采用全局最大池化表征为特征向量,分别送入预训练好的图卷积神经网络进行上采样:步骤3.4:将上一步骤输出的特征图以特征矩阵的形式表示,并分别送入空间金字塔池化层进行下采样;

步骤3.5:将得到的图像特征向量与训练样本中的图像关联数据进行特征融合,将得到的文本特征向量与训练样本中的文本关联数据进行特征融合;

步骤3.6:将两路各自融合得到的特征向量经过一层全连接层送入典型关联分析模块,进行最终跨模态匹配部分的训练;

步骤四、检索与精度测试,过程如下:

步骤4.1:将预处理好的测试数据集Q’送入训练得到的最优模型,采用文本到图像的检索进行跨模态检索测试;

步骤4.2:使用跨模态检索模型对输入的文本及其关联数据进行跨模态匹配,匹配到最优的top5段不同的图像及其关联数据,并使用支持向量机判断匹配的文本图像对所属类别,记录检索结果;

步骤4.3:比较问询文本的类别标签和跨模态检索模型返回的文本图像对类别标签是否一致,根据数据检索中的评价指标计算所有问询文本的准确率。

2.如权利要求1所述的一种基于图卷积神经网络的跨模态检索方法,其特征在于,所述步骤1.2中,将ResNet-101与图卷积神经网络(GCN)结合组成的Res-GCN作为图像的特征提取器,其预训练过程在多标签图像数据集MSCOCO上进行。

3.如权利要求1所述的一种基于图卷积神经网络的跨模态检索方法,其特征在于,所述步骤1.2中,将BERT与图卷积神经网络(GCN)结合组成的BERT-GCN作为文本的特征提取器,其预训练过程在多标签的文本数据集Google News上进行。

4.如权利要求1所述的一种基于图卷积神经网络的跨模态检索方法,其特征在于,所述步骤1.3中,典型关联分析模型的两路输入部分各接一个空间金字塔池化层和全连接层,空间金字塔池化层将输入矩阵共分为21个空间,对每一个空间采用全局最大池化方法。

5.如权利要求1所述的一种基于图卷积神经网络的跨模态检索方法,其特征在于,所述步骤3.5中,将得到的图像特征向量与训练样本中的图像关联数据进行特征融合,将得到的文本特征向量与训练样本中的文本关联数据进行特征融合,两路特征融合方法均为直接将空间金字塔输出的特征向量与关联数据向量进行连接。