欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 201610668504X
申请人: 常熟理工学院
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-02-26
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于网格快速搜寻密度峰值的教育数据聚类方法,其特征在于,依次包括以下步骤,步骤1:读取数据库中数据,进行数据预处理形成待聚类数据集,所述数据集包括学生在校学习和生活的若干属性,所述属性包括学生个人信息,学生选课成绩信息,学生的毕业情况信息,把所述信息的子属性当作聚类算法的输入属性,所述子属性包括学号 、成绩、性别、政治面貌、民族、籍贯和考生类别,设每个所述子属性上的值在区间[li,hi)中,i=1,

2,…,d,d为自然数,则S=[l1,h1)×[l2,h2)×…×[ld,hd)构成数据集;

步骤2:计算单个网格单元的边长side,以及每维区间数,根据计算结果,对数据集的每一个维度进行划分,将其划分成边长相等且互不相交的网格单元,对于每一维的网格单元,保证取值区间都是左闭右开的,所述每一个维度为每个所述子属性;

步骤3:对数据点进行映射,映射至对应的网格单元中,获取每维上对应的下标,所述数据点为所述数据集中的子属性的值;

步骤4:对每一网格单元,计算其包含的数据点数,考察任一网格单元P相邻的网格单元,与相邻网格单元比较密度大小,并向密度大于网格单元P的网格单元进行扩展,得到网格单元合集,形成数据分区;

步骤5:计算各数据分区中各数据点xi的局部密度ρi和距离δi并确定密度阈值=dc ,根据决策图确定聚类中心及其个数;

步骤6:对非聚类中心的数据点进行归类,根据密度阈值dc确定各类的核心区域和边界区域,并指定边界区域中最高点密度值ρb作为去除噪声点的阈值;

步骤7:假设边界点p的密度阈值dc邻域中包含的核心点同属于一个聚类中,则把该点p直接划分到包含这些核心点的簇中;假设边界点p同时落在几个分属于不同簇的核心点的dc邻域内,那么就把该边界点划入距离最近的簇中;

步骤8:计算类间相似度,合并两个满足类间相似条件的类;

步骤9:输出聚类结果。

2.根据权利要求1所述的基于网格快速搜寻密度峰值的教育数据聚类方法,其特征在于,所述类间相似条件为类间相似度小于等于类密度阈值的较小值。