欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2019101884799
申请人: 西南交通大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-01-05
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种半监督分类预测方法,包括以下步骤:步骤一、构建有标签数据和无标签数据:(1)利用爬虫技术从互联网中获取数据,或者利用已有的数据集;这些数据集中每个样本将包括具体的属性特征;

(2)在整个数据集中,每个样本的类别将由标签唯一表示;其中,有标签表示的样本称为有标签数据,无标签表示的样本称为无标签数据;

步骤二、对无标签数据进行伪标签标记:(1)利用数据集中的有标签数据,训练一个基模型分类器;

(2)利用基模型分类器对无标签数据进行预测,并给出每个样本在类别上的概率值;设置一个高置信度阈值δ,与所有样本的所属类别概率值比较,将大于置信度δ的伪标签数据c

加入到原来的训练集A=[L1,L2,...,Lc]∈R ,小于置信度δ保留为无标签数据B=[U1,c

U2,...,Uc]∈R ;其中Lk为类别为k的数据集,k=1,2,3...;R表示实体,c为数据的所有类别数目;

步骤三、寻找带有冗余的数据区域,具体实现步骤如下:c

(1)获得有标签的数据集A=[L1,L2,...,Lc]∈R ,将类别为k有标签数据记为Lk,并记样p×n (p‑1)×n

本集Lk=[l1,l2,...,ln]∈R ,其中样本属性值集为X=[x1,x2,...,xn]∈R ,样本标

1×n

签值为Y=[y1,y2,...,yn]∈R ;设样本属性值集X的均值 将mk作为样本集Lk的数据中心;其中,n为视图样本集Lk的样本个数,p分别为样本属性值集X的属性个数,xi和yi分别表示X,Y的第i个样本;

p×c

(2)对所有的类别求数据中心M=[m1,m2,...,mc]∈R ;分别围绕每个中心产生一个有c

限空间,将有限空间里的样本记为qk,记有限空间集为Q=[q1,q2,...,qc]∈R;

(3)基于每个类别的样本的分布情况下,获得一个距离阈值τ,将量化有限空间中所有样本到中心的距离,利用阈值及中心M对有标签数据进行划分,在同样量化的目标下,将数据样本到中心M的距离小于τ的量化空间集作为 以及将数据样本到中心M的距离大于τ的量化空间集作为τ

(4)同时,τ控制每个中心的样本密度 针对所有量化空间集Q ,利用密度τ

阈值ρτ对数据集Q 划分为 为需要优化的冗余区域, 为均匀空间集;

步骤四、优化空间集 并重新训练基模型;

(1)在步骤三中获得冗余区域 其中c1=n‑c2,c2为 有限空间集数量;

(2)利用随机采样的方法对有限量化空间 里的数据进行离散化;设置采样率η将保证数据的平稳性,记采样后的量化空间为 其中o

(3)将步骤三中所获得的Q , 合并成新的有标签数据集,然后重复步骤二,直到无标签数据集为空,或者到达所设定的迭代次数。