1.一种半监督分类预测方法,包括以下步骤:
步骤一、构建有标签数据和无标签数据:
(1)利用爬虫技术从互联网中获取数据,或者利用已有的数据集;这些数据集中每个样本将包括具体的属性特征;
(2)在整个数据集中,每个样本的类别将由标签唯一表示;其中,有标签表示的样本称为有标签数据,无标签表示的样本称为无标签数据;
步骤二、对无标签数据进行伪标签标记:
(1)利用数据集中的有标签数据,训练一个基模型分类器;
(2)利用基模型分类器对无标签数据进行预测,并给出每个样本在类别上的概率值;设置一个高置信度阈值δ,与所有样本的所属类别概率值比较,将大于置信度δ的伪标签数据加入到原来的训练集A=[L1,L2,...,Lc]∈Rc,小于置信度δ保留为无标签数据B=[U1,cU2,...,Uc]∈R ;其中Lk为类别为k的数据集,k=1,2,3...;R表示实体,c为数据的所有类别数目;
步骤三、寻找带有冗余的数据区域,具体实现步骤如下:
(1)获得有标签的数据集A=[L1,L2,...,Lc]∈Rc,将类别为k有标签数据记为Lk,并记样本集Lk=[l1,l2,...,ln]∈Rp×n,其中样本属性值集为X=[x1,x2,...,xn]∈R(p-1)×n,样本标签值为Y=[y1,y2,...,yn]∈R1×n;设样本集X的均值 将 作为样本集Lk的数据中心;其中,n为视图X,Y的样本个数,p分别为样本X的属性个数,xi和yi分别表示X,Y的第i个样本;
(2)对所有的类别求数据中心M=[m1,m2,...,mc]∈Rp×c;分别围绕每个中心产生一个有c限空间,将有限空间里的样本记为qk,记有限空间集为Q=[q1,q2,...,qc]∈R;
(3)在充分考虑每个类别的样本的分布情况下,获得一个距离阈值τ,将量化有限空间中所有样本到中心的距离,利用阈值及中心M对有标签数据进行划分。在同样量化的目标下,将数据样本到中心M的距离小于τ的量化空间集作为 以及将数据样本到中心M的距离大于τ的量化空间集作为
(4)同时,τ控制每个中心的样本密度 针对所有量化空间集Qτ,利用密度阈值ρτ对数据集Qτ划分为 为需要优化的冗余区域, 为均匀空间集;
步骤四、优化空间集 并重新训练基模型;
(1)在步骤三中获得冗余区域 其中c1=n-c2,c2为 有限空间集数量;
(2)在充分考虑每个冗余区域的中心密度,利用随机采样的方法对有限量化空间 里的数据进行离散化;设置采样率η将保证数据的平稳性,记采样后的量化空间为其中(3)将步骤三中所获得的Qo, 合并成新的有标签数据集,然后重复步骤二,直到无标签数据集为空,或者到达所设定的迭代次数。