1.一种增强的锚点图半监督分类方法,包括:
S100、准备数据集,所述数据集包括已标记数据集Xl和未标记数据集Xu两部分,已标记数据集xl的标记信息为Fl,数据集中数据的特征通过数据属性信息来描述,l表示已标记数据的个数,将数据集中的所有数据抽象为t维空间上的n个节点,其中第b个节点表示为pb;
S200、对步骤S100中准备的数据集采用锚点提取方法提取m个锚点,得到锚点集U;
S300、根据步骤S200中得到的锚点集U,使用基于锚点的概率近邻方法建立锚点集U中的锚点或已标记数据集xl中的节点二者中任一与数据集中其他节点之间的关系,得到关系* *矩阵Z ,关系矩阵Z是一个n×m的矩阵, 代表锚点集U中的锚点或已标记数据集Xl中的节点pj二者中任一与数据集中其他节点pi之间的相似度,具体为:其中, 代表pj和pi之间的相似度,pj表示锚点集U中的锚点或已标记数据集Xl中的节点,pi表示数据集中的其他节点, 表示pj与pi之间的距离,q表示pj是pi的第q个近邻,r为参数,其表示节点pi连接距离其最近的r个已标记样本点或锚点作为该节点的近邻;
S400、将步骤S200中得到的锚点集U中的锚点和已标记数据集Xl中的节点作为节点构造图结构,利用扩展的标签传播(ELP)方法进行标签传播,具体为:S401、根据已标记数据集的标记信息Fl和锚点的标记信息建立初始的标签矩阵F,F=[Fl;Fu],标签矩阵F是一个n′×c的矩阵,其中n′=(l+m)为已标记节点和锚点的总数,c为标记的类别数,Fu表示锚点的标记信息,初始为0;若已标记数据集和锚点集的节点pj的标记为v,则Fjv=1,否则Fjv=0,其中Fjv表示标签矩阵F第j行第v列的元素;
S402、根据锚点和已标记数据集中的节点的属性信息将其抽象为t维空间上的n′个节点,由n′个节点组成图,计算图中节点间的欧式距离,得到距离矩阵S,距离矩阵S是一个n′×n′的二维矩阵,Slj表示矩阵中第l行第j列的值,存储图中节点pl和节点pj之间的欧氏距离,其中pl和pj都包括已标记数据集中的节点和锚点集中的锚点;
S403、根据步骤S402中得到的距离矩阵S选择每个节点的近邻并定义权值矩阵W,权值矩阵W是一个n′×n′的矩阵,其中Wlj用来描述节点pl和节点pj之间的相似度,即权值矩阵W第l行第j列的值;
S404、根据步骤S403中的权值矩阵W定义概率转移矩阵P,概率转移矩阵P是一个n′×n′的矩阵,其中Plj是概率转移矩阵P第l行第j列的值,用来描述标签信息从节点pl传播到节点pj的概率,即节点pj获取节点pl的标签信息的概率;
S405、根据步骤S401中的标签矩阵F和步骤S404中的概率转移矩阵P迭代求解得到锚点的标记信息,锚点的标记信息和已标记节点的标记信息共同组成迭代后的标签矩阵F*,标签矩阵F*是一个n′×c的矩阵, 表示矩阵中第i行第j列的元素;
S500、根据步骤S300中得到的关系矩阵Z*和步骤S400中得到的标签矩阵F*进行标签传播得到最终的分类结果。
2.根据权利要求1所述的方法,所述步骤S200中,优选的,若数据集为像素级,则对像素级数据采用的锚点提取方法为超像素分割(SLIC)方法,具体为:S211,将图像细分成多个图像子区域,即图中的网格,每个图像子区域为一个聚类,其大小是 其中n为像素个数即数据集中的节点个数,m为锚点个数,初始时,选定每个网格中心的节点作为聚类中心,相邻两个聚类中心之间的距离为s;
S212,以步骤S211中选定的聚类中心为中心,在3×3的邻域内重新选择聚类中心,具体为,移动聚类中心到该邻域内梯度值最低的位置,梯度值低表示此处的像素样本点相似度高,为每个像素点px设置距离d(px)=∞,d(px)表示像素点px到其所在聚类的聚类中心的距离;
S213,对步骤S212得到的每一个聚类中心遍历其2s×2s的邻域内的每一个像素点,计算邻域内的每个像素点px和聚类中心之间的距离 若 则并将该像素点px划分到该聚类中心所在的聚类中;
S214,重复步骤S213直到每个像素点的聚类中心达到收敛,则此时所有的聚类中心作为提取的锚点集合U。
3.根据权利要求1所述的方法,所述步骤S200中,若数据集为图像级,则对图像级数据分类采用的锚点提取方法为K均值聚类(K-Means)方法,具体为:S221,图像级数据中每幅图像作为一个数据点,随机选取m个数据点作为初始的聚类中心;
S222,计算其他数据点与各个聚类中心的距离,并根据最小的距离对相应的数据点进行划分,即对于每个数据点来说,将其划分进距离其最近的聚类中心所在的聚类;
S223,计算每个聚类的均值并根据均值选择新的聚类中心,并选择均值最低的作为新的聚类中心,若聚类中心收敛,则方法终止,否则重复执行S222、S223,最终得到的所有聚类中心即为锚点集合U。
4.根据权利要求1所述的方法,所述步骤S401中,Fl为已标记节点的标记信息矩阵,具体定义为:其中 是矩阵Fl第h行第v列的值,它表示对于已标记数据集中的节点ph,如果它的标记信息为v,则 否则 yh是节点ph的标记;
Fu为锚点的标记信息矩阵,矩阵Fu的取值范围为:
其中 是矩阵Fu第g行第v列的值,它表示对于锚点ug,如果它的标记信息为u,则否则 l为已标记数据集中的节点个数,n′为锚点和已标记节点的总数,初始时Fu=0。
5.根据权利要求1所述的方法,所述步骤S402中,图中节点pl和节点pj之间的欧式距离为:其中t表示数据的维度,pl、pj表示图中的第l、j个节点,包括已标记节点和锚点,xlw和xjw分别是节点pl、pj第w维的坐标,根据节点间的欧氏距离生成距离矩阵S。
6.根据权利要求1所述的方法,所述步骤S403中,根据距离矩阵S,使用kNN方法选择近邻,具体的:对于图中的每个节点,选择距离其最近的k个节点作为该节点的近邻,根据选择的近邻生成邻接矩阵A,A是一个n′×n′的矩阵,邻接矩阵A中,若pj是pl的近邻,则矩阵中相应位置Alj的值为1,否则为0,Alj表示邻接矩阵A中第l行第j列的值,pl和pj均包括已标记节点和锚点。
7.根据权利要求6所述的方法,所述步骤S403中还包括,根据邻接矩阵A和距离矩阵S定义权值矩阵W,具体为:当l≠j时,
当l=j时,Wlj=0;e是自然底数。
8.根据权利要求1所述的方法,所述步骤S404中样本特征空间的概率转移矩阵P,具体为:
9.根据权利要求1所述的方法,所述步骤S405中的迭代求解具体为:
S4051,F0=F,P0=P,其中F0为初始的标签矩阵,P0为初始的样本特征空间的概率转移矩阵;
S4052,Ft+1←PtFt,其中Ft+1为第t次迭代后得到的标签矩阵,Pt为第t-1次迭代后得到的概率转移矩阵,Ft为第t-1次迭代后得到的标签矩阵,该步骤将第t-1次迭代得到的概率转移矩阵和标签矩阵的乘积赋值给Ft+1;
S4053, 其中 为第t次迭代后得到的已标记节点的标记信息矩阵,Yl为初始的标记信息矩阵,该步骤将初始的标记信息矩阵赋值给 目的是保证初始的标记信息不会改变;
S4054, 其中 为样本标记空间的概率转移矩阵,Nor表示对矩阵的
归一化, 表达的是类别标签之间的相关性,即,如果pl和pj属于同类样本,则 的第l行第j列元素为1,否则为0,该步骤将第t-1次迭代后得到的标签矩阵与其转置矩阵相乘后的矩阵归一化后赋值给S4055, 其中Pt+1为第t次迭代后得到的概率转移矩阵,Pt
为第t-1次迭代后得到的概率转移矩阵,α为参数,一般取0.4,该参数用于调整Pt和所占比例,M是一个n′×n′的矩阵,其中,Mlj=1表示节点pj是节点pl的k个最相似的样本之一,否则,Mlj=0;其中节点pj和节点pl均包括已标记节点和锚点,⊙是Hadamard乘积, 表示两个矩阵的对应位置元素相乘组成的新的矩阵, 为第t次迭代后得到的样本标记空间的概率转移矩阵,该步骤将第t-1次迭代后得到的概率转移矩阵和矩阵以一定比例相加后得到的矩阵赋值给Pt+1;
S4056,重复执行步骤S4052至S4055直到收敛,此时的矩阵Ft即为迭代后的已标记节点和锚点的标签矩阵F*。
10.根据权利要求1所述的方法,所述步骤S500中,根据关系矩阵Z*和标签矩阵F*计算未标记样本的标记信息,具体包括:其中,aj表示标签矩阵F*中第j列元素组成的向量, 为关系矩阵第i行组成的向量,表示节点pi取得标记信息j的概率,参数λj用于归一化, 其中,1T是一个1×n的矩阵,矩阵中所有元素均为1,对于不同的类别j,有其对应的参数λj,1为已标记节点的个数,n为节点总数,argmax代表将当 取得最大值时所得的j值赋值给yi,即将标记yi作为节点pi的标记,对所有节点获得标记后即完成数据的分类。