欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2021104123231
申请人: 重庆邮电大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-02-26
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于多模态交互融合网络的图文情感分析方法,其特征在于:包括以下步骤:步骤一:对图文进行预处理,分离出文本和图像,并采用词嵌入技术处理文本,采用图像处理技术处理图像;

步骤二:使用空洞卷积神经网络、双向长短时记忆网络和注意力机制构建文本特征提取模块,使用深度卷积网络构建视觉特征提取模块;

步骤三:设计面向图文的多模态交互融合网络,并采用多个具有不同神经元的多模态交互融合网络建模不同粒度的图文相关性;

步骤四:融合不同粒度的图文特征,并通过多层感知机获取图文情感倾向;

步骤五:使用交叉熵作为损失函数,并使用带有热启动的Adam优化器训练模型。

2.根据权利要求1所述的基于多模态交互融合网络的图文情感分析方法,其特征在于:步骤一中所述的对图文进行预处理,具体包括以下步骤:对于输入的图文对,采用词嵌入技术将输入文本映射为向量表示;输入的长度限制为k,如果单词的数量大于k,则将文本剪切为k,同时使用零填充来扩展少于k个单词的文本,每个文本表示如下:

k×d

式中,Tin∈R 代表模型的输入且d表示词向量的维数;将所有图像转换为大小为224×

224,通道为RGB的图像。

3.根据权利要求1所述的基于多模态交互融合网络的图文情感分析方法,其特征在于:步骤二中所述的文本特征提取模块,是使用不同扩张率的空洞卷积、双向长短时记忆和自注意力机制构建多通道结构,以提取不同尺度的高层文本特征和原始文本特征,并使用多头注意力机制突出全局特征中的情感相关特征;所述的视觉特征提取模块,是使用101层的残差网络,即ResNet101模型提取视觉特征,并采用全局池化策略和全连接层映射得到视觉特征。

4.根据权利要求3所述的基于多模态交互融合网络的图文情感分析方法,其特征在于:步骤二中构建所述文本特征提取模块具体包括以下步骤:对于每个文本信息Tin,首先将其输入n个具有不同扩张速率的空洞卷积以获取高层特征,接着将高层特征和原始特征分别输入到BiLSTM中学习上下文信息,计算公式如下:式中,i∈[1,n+1], 和 分别代表空洞卷积的输出和可训练参数, 和分别代表BiLSTM的输出和可训练参数;

在融合高层特征和原始上下文特征之前,使用自注意机制去除特征中的冗余信息,表示如下:

式中, 和 分别代表注意力机制的输出和可训练参数;

接着将所有特征融合:

最后,通过多头注意力机制突出融合后的全局特征中情感相关的重要特征:a m m

Tm=MultiHead(Τ;θ)Wm m

式中,W和θ代表多头注意力机制的可训练参数;

接着使用全连接层获取文本特征:T=TmWT+BT

式中,WT和BT分别代表全连接层的可训练参数和偏置参数。

5.根据权利要求3所述的基于多模态交互融合网络的图文情感分析方法,其特征在于:步骤二中构建所述视觉特征提取模块具体包括以下步骤:对于输入的图文对,首先使用预处理方法将所有图像转换为相同的格式;

接着使用深度卷积神经网络、池化层和全连接层提取视觉特征,具体公式如下:d

Pc=deepCNNs(Pin;θ)Pa=GAP(Pc)

P=PaWp+bp

d

式中,Pin代表图文对中预处理后的图像输入,θ代表深度卷积神经网络中的可训练参数,GAP(·)代表全局平均池化策略,Wp、bp分别代表全连接层的可训练权重和偏置参数。

6.根据权利要求1所述的基于多模态交互融合网络的图文情感分析方法,其特征在于:步骤三中所述的设计面向图文的多模态交互融合网络,具体包括以下步骤:对于文本特征T和视觉特征P,通过多模态交互融合网络获取交互后的图文特征X,S301:通过输入门的门控机制控制文本特征和视觉特征中的相关信息参与特征交互,具体公式如下:

iT=σ(TWiT+biT)iP=σ(PWiP+biP)式中,σ(·)代表Sigmoid激活函数,Wr、br代表可训练权重和偏置,通过iT和iP确定文本特征和视觉特征中哪些相关信息将参与特征交互过程;

S302:将文本特征T和视觉特征P映射到输入空间,具体如下:eT=TWeT+beT

eP=PWeP+beP

式中,Wr、br代表可训练权重和偏置,eT、eP代表输入空间中的文本特征和视觉特征S303:得到文本特征和视觉特征中的有效交互信息:e′T=eT*iT

e′P=eP*iP

式中,e′T和e′P分别代表有效文本交互特征和有效视觉交互特征。

S304:将文本特征和视觉特征,以及有效的文本交互特征和视觉交互特征,输入到交互空间中,通过余弦相似度计算不同模态特征之间的相关性:式中,αp2t代表视觉特征与文本特征的相似性,αt2p代表文本特征与视觉特征的相似性。

S305:将输入的文本特征和视觉特征映射到输出空间,计算备选的输出特征:式中, 和 表示输出空间中的备选文本特征和备选视觉特征, 和 表示可训练权重, 和 表示可训练偏置;

S306:根据有效交互特征得到注意力加权向量,用于去除输出特征中的冗余信息:AT=softmax(e'T)AP=softmax(e'P)S307:根据以上信息建模特征之间的互补性和一致性,并得到有效特征和互补特征,输出空间中交互后的特征表示为:式中,CT和CP代表输出空间中交互后的文本和视觉特征;

S308:通过输出门的门控机制确定输出哪些图文信息,并建模特征之间的差异性,以消除特征中的冗余信息:

OT=σ(TWoT+boT)OP=σ(PWoP+boP)式中,OT和OP代表多模态交互融合模块,WoT和WoP表示可训练权重,boT和boP表示可训练偏置;

S309:根据输出门和输出空间中的特征,可得到输出特征:T'=OT*tanh(CT)P'=OP*tanh(CP)式中,T'和P'为输出的文本特征和视觉特征;

S310:融合h个交互融合模块的输出并生成图文特征:r

式中,W代表可训练权重,[,]代表串联操作。

7.根据权利要求1所述的基于多模态交互融合网络的图文情感分析方法,其特征在于:所述步骤四中,通过多模态交互融合网络获得交互后的图文特征后,使用带有一个隐含层的多层感知机计算情感倾向概率分布,具体公式如下:H=tanh(XWH+bH)P=softmax(HWP+bP)式中,Wr和br代表多层感知机的可训练权重和偏置。

8.根据权利要求1所述的基于多模态交互融合网络的图文情感分析方法,其特征在于:步骤五中,使用反向传播算法训练模型,通过最小化损失函数优化模型,交叉熵作为基础损失函数,对于第i类情感真实极性分布yi与预测结果 损失函数表示为:其中,n代表类别数。

9.一种基于多模态交互融合网络的图文情感分析系统,其特征在于:包括数据预处理模块、文本特征提取模块和视觉特征提取模块、多模态交互融合模块和情感分析模块;

所述数据预处理模块通过文本数据使用词嵌入技术训练词向量,并将文本映射为词向量矩阵,将训练语料进行分词,然后使用skip‑gram模式训练词向量,得到词嵌入矩阵,接着将文本映射为对应的词向量矩阵;

所述文本特征提取模块和视觉特征提取模块使用空洞CNN和双向LSTM通过词向量矩阵提取文本的高层上下文特征,利用双向LSTM提取文本的原始上下文特征,利用多通道模型,融合不同视距的上下文特征和原始上下文特征,通过局部注意力机制对各通道的特征进行加权,生成全局特征;

所述多模态交互融合模块利用全局注意力模块突出全局特征中的重要信息,再使用Top‑K池化策略对特征进行筛选;

所述情感分析模块通过两个全连接层和一个激活层得到文本的情感概率分布,并使用自适应加权损失函数,使模型自动关注难以分类和训练样本少的类别,以提高模型的分类性能。