欢迎来到知嘟嘟! 联系电话:13336804447 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13336804447
知嘟嘟经纪人
收藏
专利号: 2018113196193
申请人: 江苏工程职业技术学院
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-01-05
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于混合式主动学习策略的软件缺陷预测方法,其特征在于,所述基于混合式主动学习策略的软件缺陷预测方法采用基于代价敏感的信息熵与相对熵协同主动学习方法,简称为UNCERTAINTYKL模型,所述UNCERTAINTYKL模型使用信息熵作为优质样例的评价指标,从未标记样例数据中选取信息熵较高的样例手工标注,同时使用相对熵来进一步分析低信息熵的样例,进一步扩充已标记数据集;

所述UNCERTAINTYKL模型包括以下步骤:步骤1:通过信息熵计算公式计算每个未标记样例数据的信息熵;

步骤2:从未标记样例数据中选择信息熵最高的数据样例交由领域专家进行人工标注,标注完成后加入已标记数据集;

步骤3:筛选步骤2中剩余信息熵最低的未标记样例数据,利用相对熵计算方式进行标注;

步骤4:预先设置一个相对熵阈值,若相对熵低于阈值,则加入该样例到已标记数据集,同时用预测结果的标记作为该数据的伪标记;若相对熵高于阈值,则放弃对该样例的处理;

为解决所述UNCERTAINTYKL模型求解问题,采用以下分段式优化策略,优化过程如下:A.系统初始化:系统开始运行之前,从样例集合池中取出一部分样例交由领域专家进行手工标注,记为标记数据集Dl,初始标记结合的采样方式是随机的从样例集合中取样,由1

标记数据集Dl完成对分类模型θ的初次训练,作为后续对无标记数据分类的基础;

1

B.未标记样例主动选择:使用分类模型θ对每一个未标记样例进行预测,依据公式计算每个样例的信息熵,排序取出信息熵最大的样例xu,max交由领域专家进行手工标注,并将xu,max加入标记数据集Dl;

C.确定度最高样例的伪标记处理:将信息熵最低的样例xu,min取出,依据公式计算相对熵,即KLD,将KLD与阈值进行比较,如果满足阈值,则对xu,min标注,并将xu,min加入标记数据集Dl;

1

D.分类模型更新:使用标记数据集Dl再次训练分类模型θ,然后循环直到满足终止条件为止。

2.根据权利要求1所述的一种基于混合式主动学习策略的软件缺陷预测方法,其特征在于,步骤2中所述信息熵最高的数据样例的计算方式如下:xu,max=arg max(‑∑iPθ(yi/x)log Pθ(yi/x))    (1)其中i表示第i个未标注样例(i=1,2,...u),yi表示待分类标签所属的标签值,xu,max表示根据公式(1)得到的未标记数据集中信息熵最大的数据样例,属于类别yi的预测概率值,pθ(yi/x)表示基于已标记数据集数据分布情况下的概率。

3.根据权利要求1所述的一种基于混合式主动学习策略的软件缺陷预测方法,其特征在于,步骤3所述相对熵计算方式包括如下公式:表示根据所有分类模型KLD计算得到的相对熵的均值,xu,min表示根据公式(1)得到的未标记数据集中信息熵最小的数据样例,C表示查询委员会的分类器数目,分类器的数据集

1 m

为动态更新的Dl,分类委员会C={θ,...,θ},分类委员会的分类器成员代表不同的分类策略,都能够对未标记数据计算当前标记,PC(yi/x)用于表示查询委员会分类模型对于待分类i

标记所属的标签yi的概率的平均值,D(Pθ(C)/PC)表示分类模型θ对其他模型的相对信息熵。

4.根据权利要求3所述的一种基于混合式主动学习策略的软件缺陷预测方法,其特征i

在于,步骤4中所述阈值设置为经验阈值0.1,若所述 值满足阈值范围,则使用θ对xu,min中的样例进行伪标记。