1.一种基于紧凑双线性融合的图文跨模态情感分类方法,其特征在于,包括:从图文标注情感训练数据集中,逐一提取出图像及其对应的文字信息,将图像调整为
448*448大小,将调整好的图像输入到经过ImageNet数据集上预训练好的152层的残差网络中,提取出图像经过152层残差网络计算后,其中最后一层卷积层的输出,大小为2048*14*
14,作为图像的特征表示;
使用GloVe模型生成的300维词向量,将图像对应的文字信息转化计算机可以处理的矩阵表示,输入到双层LSTM网络中,每层LSTM网络包含100个单元,每层的输出向量为1024维,最后将每层LSTM的输出拼接,组成2048维的向量,作为文本的特征表示;
根据得到的图像与文本特征表示,生成每个空间位置的注意力权重,即软注意力图,根据得到的软注意力图,与之前提取到的图像的特征表示进行权重相乘,再求和,得到2048维的图像注意力特征表示;
将得到的2048维的文本特征表示和图像注意力特征表示,使用多模态紧凑双线性融合算法MCB进行特征融合,得到16k融合特征,在得到融合特征后,后面一层是全连接层,最后使用softmax分类器对图文跨模态数据进行积极和消极二类的情感预测,接着对比真实的情感标签,对该紧凑双线性融合的图文跨模态情感分类模型MCBC进行训练;
从图文标注情感测试数据集中抽取出图像及其对应的文字信息,送入到训练好的模型中,得到其相应的情感倾向,根据真实的情感标签,得到测试集的情感分类准确率;
所述软注意力图的生成方法,包括:
将得到的2048维的文本特征表示,复制14*14=256次,组合成2048*14*14的大小,再与之前得到的大小为2048*14*14的图像特征表示进行拼接,组合成4096*14*14大小的特征,接着经过两层卷积层,得到1*14*14大小的输出,接着使用softmax分类器得到1*14*14大小的软注意力图;
所述图像注意力特征表示的获取方法,包括:
将得到的1*14*14的软注意力图,分别与提取到的2048个14*14大小的图像特征表示进行逐个逐元素相乘并求和,得到2048维的图像注意力特征表示;
所述使用多模态紧凑双线性融合算法MCB进行特征融合,包括:
a、使用式(1)进行特征融合,如下:
其中,I表示提取得到的2048维图像注意力特征表示,C表示提取得到的2048维文本特征表示,代表外积,[]代表将外积的计算结果线性化为一个向量来表示,W用来筛选外积计算结果并得到固定大小的融合特征,Z表示融合之后的特征;
b、降低W所需参数:
使用Count Sketch投影函数ψ,将向量x∈Rn投影到y∈Rd:首先初始化两个向量h∈{-1,
1}n和g∈{1,...,d}n,h每个位置只取1或-1,g使得输入x的索引i变化成输出y的索引j;其中,h和g使用均匀分布随机生成,并始终保持不变;对于每个元素x[i],它的最终索引j=h[i],最终输出y[j]=h[i]·x[i];
通过上述方法,将外积映射到低维空间当中,从而降低了W的参数;由于外积计算的复杂性,为了避免直接的计算外积,使用Count Sketch函数计算两个向量的外积可以表示成两个向量的Count Sketch函数进行卷积的形式,如式(2),其中,*表示卷积操作;
c、使用逐元素相乘完成MCB融合算法:
根据卷积理论,在时域下的卷积,等价于频率域中逐元素相乘;因此,令I′=ψ(I,g,h),C′=ψ(C,g,h),上述式(2)的I′*C′就改写成FFT-1(FFT(I′)e FFT(C′))的形式,e代表逐元素相乘,以此完成MCB融合算法,完成外积的计算,并且MCB融合算法支持更多模态作为输入。
2.根据权利要求1所述的基于紧凑双线性融合的图文跨模态情感分类方法,其特征在于,对MCBC模型进行训练的方法,包括:采用Adam方法进行梯度更新,在最大迭代次数内,如果终止条件能满足,则整个训练过程结束。