1.一种文本编辑图像方法,其特征在于,包括以下步骤:S1、将原始图像和原始图像的第一文本描述信息送入通道注意力模块进行关联,然后送入生成器,生成与文本相关的第一图像,将所述第一图像和第一文本描述信息送入鉴别器进行鉴别,所述鉴别器为单词级鉴别器;
S2、将所述第一图像和原始图像的第二文本描述信息送入通道注意力模块进行关联,然后送入生成器,生成与文本相关的第二图像,将所述第二图像和第二文本描述信息送入鉴别器进行鉴别;
S3、利用步骤S1和S2得到的鉴别信息构建循环一致性损失函数,并经过多次迭代对生成器进行训练,得到优化后的生成器;利用该生成器,能够利用文本信息对输入的图像内容进行有效的编辑;
所述将原始图像和原始图像的第一文本描述信息送入通道注意力模块进行关联,包括:提取原始图像的全局特征,提取原始图像的局部特征,将第一文本描述信息编码为词向量,加强文本与图形中的特征区域之间的关联;
所述提取原始图像的全局特征,提取原始图像的局部特征,将第一文本描述信息编码为词向量,加强文本与图形中的特征区域之间的关联,包括:利用VGG‑16网络提取原始图像的全局特征,利用Inception‑V3网络提取原始图像的局部特征,利用RNN网络将第一文本描述信息编码为词向量,并利用SFA函数加强文本与图形中的特征区域之间的关联;其中:将图像特征描述为VI,通过卷积将视觉特征编码为υ1,υ2,利用softmax来计算通道注意力α,公式如下:将单词特征描述为Vw,通过感知层Fw对齐后得到词向量特征 然后根据得到的通道注意力,矩阵相乘计算通道注意力矩阵,然后再与图像特征VI逐元素进行求和,得到VLj:其中,VLj表示每个通道与句子中的视觉特征词汇之间的相关性;
所述鉴别器具有两个输入:图像特征信息和文本特征信息,其中:图像特征VI通过感知层处理后得到 与单词特征对齐后进行相乘,然后使用softmax函数对齐进行归一化处理后得到xn,m,xn,m表示句子中第n个单词与图像中的第m个区域之间的相关度,公式如下:然后使用单词级别的注意力机制生成向量Vδ,向量的长度表示每个单词的重要性;通过′对Vg重复N次得到Vδ 矩阵,按照元素相乘的方法使其与xn,m相乘得到 最后进行元素的求和;
构建的循环一致性损失函数如下:
′
其中,I表示原始图像的图像信息,S表示原始图像的第一文本描述信息,I 表示第一图′像,S表示原始图像的第二文本描述信息,D表示鉴别器,G表示生成器;
′
从I和I中提取对应的语义特征信息来定义身份映射损失 使生成的内容和原始图像内容一致,公式如下:对于域损失,公式如下:
网络整体的损失函数如下:
2.一种计算机可读存储介质,其特征在于,所述存储介质包括存储的程序,其中,所述程序执行如权利要求1所述的文本编辑图像方法。
3.一种电子设备,其特征在于,包括:一个或多个处理器,存储器以及一个或多个程序,其中,所述一个或多个程序被存储在所述存储器中,并且被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行上述如权利要求1所述的文本编辑图像方法。
4.一种文本编辑图像系统,其特征在于,包括通道注意力模块、生成器、鉴别器、循环一致性损失函数构建模块;
所述通道注意力模块用于将原始图像和原始图像的第一文本描述信息进行关联;
所述生成器用于生成与文本相关的第一图像;
所述鉴别器用于对第一图像和第一文本描述信息进行鉴别;
通道注意力模块还用于将所述第一图像和原始图像的第二文本描述信息进行关联;
所述生成器还用于生成与文本相关的第二图像;
所述鉴别器还用于对所述第二图像和第二文本描述信息进行鉴别,所述鉴别器为单词级鉴别器;
所述循环一致性损失函数构建模块用于利用鉴别信息构建循环一致性损失函数,并经过多次迭代对生成器进行训练,得到优化后的生成器;利用该生成器,能够利用文本信息对输入的图像内容进行有效的编辑;
所述通道注意力模块用于将原始图像和原始图像的第一文本描述信息进行关联,包括:提取原始图像的全局特征,提取原始图像的局部特征,将第一文本描述信息编码为词向量,加强文本与图形中的特征区域之间的关联;
所述提取原始图像的全局特征,提取原始图像的局部特征,将第一文本描述信息编码为词向量,加强文本与图形中的特征区域之间的关联,包括:利用VGG‑16网络提取原始图像的全局特征,利用Inception‑V3网络提取原始图像的局部特征,利用RNN网络将第一文本描述信息编码为词向量,并利用SFA函数加强文本与图形中的特征区域之间的关联;其中:将图像特征描述为VI,通过卷积将视觉特征编码为υ1,v2,利用softmax来计算通道注意力α,公式如下:将单词特征描述为Vw,通过感知层Fw对齐后得到词向量特征 然后根据得到的通道注意力,矩阵相乘计算通道注意力矩阵,然后再与图像特征VI逐元素进行求和,得到VLj:其中,VLj表示每个通道与句子中的视觉特征词汇之间的相关性;
所述鉴别器具有两个输入:图像特征信息和文本特征信息,其中:图像特征VI通过感知层处理后得到 与单词特征对齐后进行相乘,然后使用softmax函数对齐进行归一化处理后得到xn,m,xn,m表示句子中第n个单词与图像中的第m个区域之间的相关度,公式如下:然后使用单词级别的注意力机制生成向量Vδ,向量的长度表示每个单词的重要性;通过′对Vδ重复N次得到Vδ矩阵,按照元素相乘的方法使其与xn,m相乘得到 最后进行元素的求和;
构建的循环一致性损失函数如下:
′
其中,I表示原始图像的图像信息,S表示原始图像的第一文本描述信息,I 表示第一图′像,S表示原始图像的第二文本描述信息,D表示鉴别器,G表示生成器;
′
从I和I中提取对应的语义特征信息来定义身份映射损失 使生成的内容和原始图像内容一致,公式如下:对于域损失,公式如下:
网络整体的损失函数如下: