欢迎来到知嘟嘟! 联系电话:13336804447 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13336804447
知嘟嘟经纪人
收藏
专利号: 2021105355429
申请人: 河海大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2026-03-03
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于交叉注意力的大坝缺陷图像文本跨模态检索方法,其特征在于,包括如下步骤:

(1)文本‑图像特征独立提取,首先提取大坝缺陷图像特征图,并获得图像特征图质量评分,其次提取大坝描述文本特征;

(2)文本‑图像交互特征提取,将步骤1)中提取到的图像特征图和文本特征向量输入到交叉注意力模块,利用交叉注意力模块的自注意力机制提取每个图像特征图和整段文本的交互特征矩阵;

(3)文本‑图像特征图全局相似度计算,基于交互特征矩阵计算得到相似矩阵,然后从文本检索和图像检索两个任务出发分别计算全局相似度,在文本检索任务中,基于图像特征图质量评分,计算全局相似度。

2.根据权利要求1所述的基于交叉注意力的大坝缺陷图像文本跨模态检索方法,其特征在于,所述步骤(1)中,首先使用Faster R‑CNN提取大坝缺陷图像特征图,并获得图像特征图质量评分,其次基于BERT模型提取大坝描述文本特征。

3.根据权利要求1所述的基于交叉注意力的大坝缺陷图像文本跨模态检索方法,其特征在于,所述步骤(3)中,将步骤2)中输出的交互特征矩阵使用余弦相似度计算得到相似矩阵,然后从文本检索和图像检索两个任务出发分别计算全局相似度。

4.根据权利要求1所述的基于交叉注意力的大坝缺陷图像文本跨模态检索方法,其特征在于,所述步骤(1)中文本‑图像特征独立提取具体步骤如下:(1.1)图像特征提取:选取基于ResNet‑101的Faster R‑CNN提取图像特征图,得到图像特征向量V={v1,v2,...,vk};其中vi∈V(1≤i≤k)表征图像第i个ROI特征,k为超参数,代表一幅图像提取的ROI总数;

(1.2)预处理原始文本:随机提取一部分尚未标记的大坝缺陷描述原始文本,对原始文本进行预处理;

(1.3)词典构建:将单个语句的文本语料分割为若干个单词,将分割出的每一个单词录入词典;若词典中已存在该单词,则舍弃;所有词典中的单词集合即为大坝缺陷描述词典,词典总词数为voc_size;

(1.4)文本编码:基于大坝缺陷描述词典,使用最大正向匹配算法对每一段文本进行准确分词,若出现新词和变形词则删除该词,分词后直接使用词典对文本进行One‑Hot编码得seq_len*voc_size到维度为R 的文本编码,与嵌入矩阵相乘转换维度后得到文本编码{x1,x2,...,xn};

(1.5)文本特征提取:将步骤(1.4)得到的文本编码{x1,x2,...,xn}输入BERT模型中,提取得到文本特征向量E={e1,e2,...,en};其中ej∈E(1≤j≤n)表征文本中第j个单词的特征,n为超参数,代表指定最大单个句长。

5.根据权利要求4所述的基于交叉注意力的大坝缺陷图像文本跨模态检索方法,其特征在于,所述步骤(2)中捕捉图像和文本间交互特征向量具体步骤如下:(2.1)图像‑文本特征语义对齐:将步骤(1.1)和(1.5)中得到的特征向量输入到交叉注意力模块CAM中;CAM由k个TEs模块构成,每个TEs模块由m个Transformer叠加而成,利用Transformer的自注意力机制提取每一个ROI与整段文本的交互特征向量;

(2.2)第i个TEs模块交叉特征向量计算:第i个TEs模块的输入向量是{vi,e1,e2,...,en},输入向量{vi,e1,e2,...,en}由两部分组成,图像第i个ROI特征vi和整段文本特征{e1,e2,...,en}。交叉注意力模块利用Transformer的自注意力机制提取ROI与文本的交互特征,得到输出向量 输出向量包含两部分,融合文本特征的ROI特征ai与融合ROI特征的文本特征

(2.3)交叉特征矩阵计算:对于每一个TEs模块进行步骤(2.2)中操作,得到所有k个模块的交叉特征向量,将k个模块的交叉特征向量组合得到交叉特征矩阵

6.根据权利要求1所述的基于交叉注意力的大坝缺陷图像文本跨模态检索方法,其特征在于,所述步骤(3)中文本‑图像特征图全局相似度计算步骤如下:(3.1)输入交互特征矩阵

k*n

(3.2)利用(3.1)输入内容构造相似性矩阵S∈R ,其中矩阵S表示每一个ROI与每一个单词的相似程度,元素si,j∈S表示第i个图像ROI特征ai和文本第j个单词 的相似性;

(3.3)对(3.2)中得到的相似性矩阵S进行池化,在文本检索任务中得到图像‑文本全局I2T T2I

相似度S ,在图像检索任务中得到文本‑图像的全局相似度S 。

7.根据权利要求6所述的基于交叉注意力的大坝缺陷图像文本跨模态检索方法,其特征在于,所述相似矩阵计算具体包含以下内容:对于输入的交互特征向量 使用余弦相似度来度量第i个区域与第j个单词之间的相似度,构造相似度矩阵S公式定义如下:其中,相似度矩阵第i行代表第i个ROI与一段文本每个单词的相似度;第j列代表第j个单词与某幅图像每个ROI的相似度。

8.根据权利要求6所述的基于交叉注意力的大坝缺陷图像文本跨模态检索方法,其特征在于,所述全局相似度计算具体包含以下内容:①在文本检索任务中:对全局相似矩阵的每一列归一化后进行最大池化,同时考虑基于Faster R‑CNN进行目标检测得到的ROI评分[score1,score2,...,scorek],某个ROI分数较高,那么该ROI在检索过程中权重调高;因此增加权重后图像与文本的全局相似度 公式定义如下所示:

②在图像检索任务中:对全局相似度矩阵的每一列进行最大池化,然后对池化结果求T2I

和得到图像与文本的全局相似度S ,公式定义如下所示:

9.一种基于交叉注意力的大坝缺陷图像文本跨模态检索模型,其特征在于,包括图像特征提取、构建大坝缺陷描述词典提取文本特征、图像‑文本特征语义对齐、图像‑文本相似性矩阵构造、图像‑文本全局相似度计算和最小化损失函数优化模型六个模块;

所述图像特征提取模块首先提取大坝缺陷图像特征图,并获得图像特征图质量评分,其次提取大坝描述文本特征;

所述构建大坝缺陷描述词典提取文本特征模块,基于大坝缺陷原始描述文本构建大坝缺陷描述词典,基于词典进行分词,将分词结果进行编码,将得到的文本编码输入BERT模型中,提取得到文本特征向量;

所述图像‑文本特征语义对齐模块,将特征向量输入到交叉注意力模块中,输出得到图像和文本相互指导的交互特征矩阵;

所述图像‑文本相似性矩阵构造模块,输入交互特征矩阵,输入内容构造相似性矩阵,使用余弦相似度来度量第i个区域与第j个单词之间的相似度;

所述图像‑文本全局相似度计算模块,对相似性矩阵进行池化,在文本检索任务中得到I2T T2I

图像‑文本全局相似度S ,在图像检索任务中得到文本‑图像的全局相似度S ;

所述最小化损失函数优化模型模块,对全局相似度采用铰链三元排序函数Loss(V,E)作为损失函数,每次检索只用最不相似负样本作为损失加入计算,最小化损失函数来调整网络权重。

10.根据权利要求9所述的基于交叉注意力的大坝缺陷图像文本跨模态检索模型,其特征在于,所述最小化损失函数优化模型模块中损失函数的具体计算包含以下内容:①在文本检索任务中:排序损失函数LE(V,E)定义如下所示:‑

LE(V,E)=[α‑S(V,E)+S(V,E)]+                  (4)‑

其中,α是间隔参数,[x]+=max(x,0),S为图像与文本的全局相似度;E是对于图像V来说最不相似的文本;

②在图像检索任务中:排序损失函数LV(V,E)定义如下所示:‑

LV(V,E)=[α‑S(V,E)+S(V ,E)]+                    (6)‑

其中,α是间隔参数,[x]+=max(x,0),S为图像与文本的全局相似度;V是对于文本E来说最不相似的图像。