1.一种基于扩展的sLDA模型对图像进行标题注释的方法,其特征在于,包括:步骤一、对于输入的图像,提取图像的局部特征,并利用K-means算法得到图像的N个视觉词汇wn,其中n∈{1,2...,N},N为正整数;
步骤二、使用LDA模型表示给定文档隐藏变量的后验分布:其中α和β是模型参数,z和θ分别是主题变量和主题比例;
步骤三、在步骤二中引入响应变量y以及响应变量的参数η和δ,同时将并将响应变量分布定义成多变量伯努利分布,即将公式(3)表示为:步 骤 四 、根 据 基 于 凸 性 的 L D A 推 理 变 分 算 法 将 式 ( 5 ) 近 似 成其中狄利克雷参数γ和多项参数(φ1,φ2,...,φN)均为自由的变分参数;zn为第n个词的主题变量;将logp(θ,z,w|α,β,η,δ)和q(θ,z|γ,φ)期望的差值记作L;
步骤五、求取能够使L的下界达到最大值的变分参数γ和φ;
步骤六、估计模型参数ψ={α,β,η,δ};
步骤七、根据模型参数ψ和变分参数γ和φ预测响应变量y的分布p(y|w)。
2.根据权利要求1所述基于扩展的sLDA模型对图像进行标题注释的方法,其特征在于:步骤三具体为:
利用 η和δ生成响应变量y,其中 设响应变量y的分布符合广义线性模型:其中 于是公式(3)能够表示为
其中
3.根据权利要求2所述基于扩展的sLDA模型对图像进行标题注释的方法,其特征在于:步骤四具体为:
通过以下公式将公式(5)近似为
令L(γ,φ;α,β)表示式(8)的右边,式(8)表示为logp(w|α,β)=L(γ,φ;α,β)+D(q(θ,z|γ,φ)||p(θ,z|w,α,β)) (9)通过使用p和q的因式分解将L写作式(10):
4.根据权利要求3所述基于扩展的sLDA模型对图像进行标题注释的方法,其特征在于:步骤五具体为:
步骤五一、利用φni最大化L的下界,φni表示第n个视觉词汇由隐藏主题i生成的概率,因此 并通过分离包含φni的项并添加适当的拉格朗日乘子来形成拉格朗日函数:ψ(x)是双伽马函数;
计算关于φni的导数:
其中βiv表示对于合适的v的 v为词典的第v个词;
进一步得到在响应变量服从伯努利分布条件下,参数φn的更新公式步骤五二利用γi最大化L的下界,γi表示后验狄利克雷参数的第i个组成部分;包含γi的项:对γi求导:
令导数为零:
迭代方程(16)至(19)直到边界收敛,进而得到能够使L的下界达到最大值的变分参数γ和φ。
5.根据权利要求4所述基于扩展的sLDA模型对图像进行标题注释的方法,其特征在于:步骤六具体为:
步骤六一、求得参数β的公式为:
步骤六二、求得参数α的过程为:对于公式(22),进行求导得
对公式(23)通过牛顿迭代法求取α的值;其中M表示训练集的文档数目;角标d表示第d篇文档;
步骤六三、求得参数η和σ2的过程为:其中μ(·)=EGLM[Y|·];
对σ2求导,在 上评估
经过计算,最终得到参数估计结果:将参数αi、βij、ηi和δi进行组合即可得到模型参数ψ={α,β,η,δ}。
6.根据权利要求5所述基于扩展的sLDA模型对图像进行标题注释的方法,其特征在于:步骤七具体为:
将没有标题的新文档w作为输入,利用φn和q(θ)来近似求解条件概率p(y|w),如下:其中 p(y|w)用于推断新文档w最可能的标题词。