1.一种基于点击特征预测的图像分类方法,其特征在于包括如下步骤:步骤(1)、借助有文本点击信息的图像数据集,即源点击数据集;利用分词技术及词频-逆向文件频率算法构建每张图片的文本点击特征向量;
步骤(2)、在源点击数据集下,以最小化点击特征预测误差为目标,构建带位置约束的非线性词嵌入模型,从而实现基于视觉特征的点击特征预测,并利用融合的深度视觉与预测点击特征对不含点击信息的任一目标图像集分类;
步骤(3)、构建多任务、跨模态迁移深度学习框架,在同时最小化分类与预测损失下,利用源点击数据集、目标数据集训练深度视觉与词嵌入模型;
步骤(4)、通过反向传播算法对步骤(2)中的网络参数进行训练,直至整个网络模型收敛。
2.根据权利要求1所述的一种基于点击特征预测的图像分类方法,其特征在于步骤(1)所述的借助有文本点击数据的图像数据集,是指利用分词技术及词频-逆向文件频率算法构建每张图片的文本点击特征向量,具体如下:步骤(1)中图像的文本点击信息是指每个图片对应的一个M维点击次数向量,其中M代表点击数据中文本的个数;
步骤(1)中的特征向量构建的过程如下:
将M个文本解析为单词,并选取点击次数最多的前N个单词作词基,N≤M,利用tf-idf算法为每张图片构建点击特征;其中具体公式如下:其中,ni,j是单词i出现在文本j中出现次数,而∑ini,j是文本j中所有单词出现次数的总和;D是文本集中的文本j出现的总数,Di是包含单词i的文本数。
3.根据权利要求2所述的一种基于点击特征预测的图像分类方法,其特征在于步骤(2)所述的在视觉特征的词嵌入模型上构建带位置约束的非线性词嵌入模型,从而实现基于视觉特征的点击特征预测,具体如下:
2-1.非线性词嵌入模型是指将原始的视觉深度学习模型输出的视觉特征x,经过一系列的空间变换矩阵和非线性操作,转化为与点击特征维度相同的预测点击特征 具体公式如下:其中,E1表示卷积层,包括卷积变换、池化以及线性整流单元(RELU)运算,E2、E3为两个全连接层,分别表征为两个词嵌入转换矩阵,f(·)表示一个非线性操作;
2-2.构建带位置约束的非线性词嵌入模型是指在构建点击预测的损失函数时,使用融合的点击次数向量和点击文本集误差;针对第i个图像样本,预测误差的具体公式如下:其中,τ为权重参数, 为第i个样本真实的点击次数特征向量vi与预测点击特征 之间的误差;而 为点击文本集误差,用来度量预测被点与真实被点 的文本集之间的距离:其中,∪、\分别表示并集与差集;将公式4重写为如下文本点击有无向量S(·)之间的误差:S(vi)和 分别表示真实的点击有无向量与预测的点击有无向量;
2-3.将公式(4)中的文本点击有无向量S(·),可以被如下光滑函数近似:其中,T、B分别为误差阈值、带宽参数;公式6对特征小于0的部分近似为0值,大于0的部分近似为1。
4.根据权利要求3所述的一种基于点击特征预测的图像分类方法,其特征在于步骤(3)构建多任务、跨模态迁移深度学习框架,在同时最小化分类与预测损失下,利用融合的源、目标数据集训练深度视觉与词嵌入模型,具体如下:
3-1.多任务是指在优化点击预测模型中,同时最小化预测和分类误差,使其预测的点击特征同时适用于预测和分类任务;针对此问题,构造如下多误差损失函数:其中,o为预测类别概率分布,yi为样本i真实类别,λ为另一权重参数;
3-2.跨模态:分类特征不仅是图片的视觉特征,还融合了预测的文本点击特征,图像的跨模态特征的具体公式如下:其中,xi是跨模态特征,zi和 分别是经过batch normalization的视觉特征和预测的点击特征;
3-3.跨领域:利用源点击数据集进行点击预测,并利用预测的点击特征对目标数据集进行分类;即构建了一个统一的框架实现对两种不同数据集的分类,并通过“图像-点击相关性”模型的迁移,使得没有点击数据的目标数据集也能进行基于用户点击的图像分类;该模型的多域损失函数公式如下:s t
其中,I表示源点击数据集中的图片,I 表示目标数据集中的图片,μ为权衡不同数据集模型的参数。
5.根据权利要求4所述的一种基于点击特征预测的图像分类方法,其特征在于步骤(4)通过反向传播算法对步骤(3)中的深度网络模型参数进行训练,直至整个网络模型收敛,其具体过程如下:针对以下最优化问题,通过反向传播算法迭代训练,直至模型收敛:其中,θ*为深度网络模型参数。