知嘟嘟-专利交易平台_专利购买_专利出售-买专利,上嘟嘟

欢迎来到知嘟嘟！联系电话：13336804447 卖家免费入驻，海量在线求购！卖家免费入驻，海量在线求购！

嘟嘟会员

帮助中心网站地图

查出售查高校查求购查年费

我要发布

首页转移热力图Hot 专利交易委托购买高校专区科技服务专利求购年费查询行业资讯

联系电话：13336804447

知嘟嘟经纪人

基于Spark大数据平台的三支决策不平衡数据过采样方法

￥26000

专利号： 2016112440514

申请人：重庆邮电大学

专利类型：发明专利

专利状态：已下证

专利领域：计算；推算；计数

更新日期：2024-02-26

缴费截止日期：暂无

价格&联系人

年费信息

委托购买

专利简介

专利详情

委托购买说明

需准备材料

常见问题

摘要:

权利要求书:

1.一种基于Spark大数据平台的三支决策不平衡数据过采样方法，其特征在于，包括以下步骤：

1)、在数据预处理阶段，获取并存储需要采样的样本集，对整个样本使用Spark进行数据变换，得到归一化的LabeledPoint格式的样本集，然后分成训练集和测试集；

2)、训练集划分阶段，采用Spark进行数据变换，求样本间的距离，确定邻域半径，最后根据邻域三支决策模型将整个训练集中的样本划分成正域样本，边界域样本和负域样本；

3)、采样阶段，首先利用Spark进行数据变换得到边界域中每个小类样本的K近邻，然后插值采样，对负域中的样本通过放大负域中小类样本的邻域半径，筛选非噪声点，进行过采样处理操作：对每个非噪声点找到距离其最近的小类样本，在以两者距离为邻域半径的邻域内合成K个新的小类样本点；

步骤3)利用Spark进行数据变换得到边界域中每个小类样本的K近邻，然后插值采样包括步骤：对转化后的type_RDD，调用Filter算子，选择xi的类别为小类样本且xi的类型为边界域样本的记录，定义为新的BND_RDD；然后与持久化在内存中的RDD进行join操作,筛选得到属于边界域的小类样本，然后调用Map算子，最终得到,其中xi和xj的类别均为小类样本，且xi的类型为边界域样本，最后调用Map算子根据样本合成公式合成K个新小类样本，格式为<类别＝1，[新特征集]>添加到用来存储新合成的样本NewSimpleSet；

4)、训练验证阶段，选取训练器进行训练验证，对采样前和采样后的实验结果对比。

2.根据权利要求1所述的基于Spark大数据平台的三支决策不平衡数据过采样方法，其特征在于，所述步骤1)获取并存储需要采样的样本集，对整个样本使用Spark进行数据变换，得到归一化的LabeledPoint格式的样本集，然后分成训练集和测试集具体包括步骤：首先创建SparkContext对象，然后用textFile URL函数创建分布式数据集RDD，一旦创建完成，这个分布式数据集就可以被并行操作；其次，将每个样本集转化成LabeledPoint形式，调用Map算子将<特征1，特征2，…,类别>形式的样本转化成<类别：[特征集]>形式,然后采用最大值，最小值进行归一化，最后调用zipWithIndex算子，给每一条样本做一个标号，将创建的RDD转化成<标号，<类别，[特征集]>>形式，最后根据标号将整个数据集划分成10份，随机选取一份当作测试集，剩余九份当作训练集，即采用十折交叉验证。

3.根据权利要求2所述的基于Spark大数据平台的三支决策不平衡数据过采样方法，其特征在于，所述步骤2)中采用Spark进行数据变换，求样本间的距离具体包括：首先，定义广播变量bc,即利用SparkContext对象的BroadCast算子将RDD作为广播变量广播到每个计算节点上；然后RDD调用mapPartitions算子，计算每个Partition上的样本与广播变量中样本全集的欧式距离，将RDD转化成格式。

4.根据权利要求3所述的基于Spark大数据平台的三支决策不平衡数据过采样方法，其特征在于，所述步骤2)确定邻域半径包括：首先对转化后的RDD，调用GroupBy算子，对所有样本根据xi标号进行聚合，其次，将聚集的结果调用SortBy算子，根据xi与xj的距离大小排序，然后调用mapPartitions算子，对每个Partition中的样本根据邻域半径的公式，计算样本xi的邻域半径ri，然后调用Filter算子，选择xj与xi的距离小于ri的样本xj，距离小于ri代表该样本xj落在了xi的邻域范围内；经过一系列的转化将RDD转化成格式，其中xj属于xi的邻域范围内，调用Persist算子将得到的RDD持久化内存中。

5.根据权利要求4所述的基于Spark大数据平台的三支决策不平衡数据过采样方法，其特征在于，步骤2)中根据邻域三支决策模型将整个训练集中的样本划分成正域样本，边界域样本和负域样本包括以下步骤：首先根据数据转化后的RDD，根据xi的标号，调用GroupBy算子，对样本根据xi的标号进行聚合，然后将聚集的结果调用mapPartitions算子，统计每个Partition中xi样本的邻域半径范围内大类样本个数和小类样本的个数，从而根据邻域三支决策模型确定正域样本，边界域样本和负域样本；经过一系列的转换，RDD转化为形式，定义为type_RDD，至此训练集的划分结束，调用Persist算子将得到的RDD持久化内存中。

6.根据权利要求1所述的基于Spark大数据平台的三支决策不平衡数据过采样方法，其特征在于，步骤3)对负域中的样本通过放大负域中小类样本的邻域半径，筛选非噪声点，进行过采样处理操作包括步骤：对转化后的type_RDD，调用Filter算子，选择xi的类别为小类样本且xi的类型为负域样本的记录，定义为新的NEG_RDD；然后与持久化在内存中的RDD进行join操作,筛选得到属于负域的小类样本；然后调用Map算子，最终得到,其中xi和xj的类别均为小类样本，且xi的类型为边界域样本，最后调用Filter算子，计算xi与xj的距离dis,如果存在xi与xj的距离dis小于2*ri，则在以xi与y之间的距离作为半径的邻域范围内，根据样本合成公式合成K个新小类样本，格式为<类别＝1，[新特征集]>添加到NewSimpleSet，其中y为距离xi最近的样本点，否则将样本xi在训练集中删除。

7.根据权利要求6所述的基于Spark大数据平台的三支决策不平衡数据过采样方法，其特征在于，选取训练器进行训练验证，将训练集和NewSimpleSet合并为新的训练集，选择C4.5、CART、SVM在内的分类器进行验证。

8.根据权利要求1所述的基于Spark大数据平台的三支决策不平衡数据过采样方法，其特征在于，所述步骤1)存储需要采样的样本集由HDFS自动进行分布式存储。