1.基于用户聚类的协同过滤缺失数据处理方法,其特征在于:所述方法包括如下步骤:步骤1:将有相同属性的多维有缺失的数据集组成的样本si形成矩阵S(m,n),其中,i=
1,2,…,m,其中n代表列数即数据维度,m代表数据样本;
步骤2:将S(m,n)中所有不含有缺失值的数据样本 分为一组,组成完整数据矩阵,记为C(p,n),含有缺失值的数据样本 分成一组,组成不完整数据矩阵,记为 p+q=m,i=1,2,…,p,j=1,2,…,q;
步骤3:对完整数据矩阵C(p,n)通过k‑means聚类算法进行聚类,得到k个聚类中心 组成的矩阵K(k,n)和k个聚类结果矩阵,l=1,2,…,k,其中k表示聚类数目;
步骤4:把 中每个数据样本 中的缺失值所在列去掉,得到完整数据样本E,去掉聚类中心矩阵K(k,n)中与数据样本 缺失值相同列的数据得到新的聚类中心矩阵F,完整数据样本E与新的聚类中心矩阵F最近的聚类中心即为数据样本 相近的类;
步骤5:在每一类中,分别计算该类中每个含有缺失值的数据样本 去掉缺失值所在列与该类中去掉相同列的不含有缺失值的数据样本的皮尔逊相关系数ρG,H;
步骤6:对数据样本 的缺失数据进行填补,对数据样本 中缺失的变量xb填补入插补值 完成数据处理;
所述步骤5中皮尔逊相关系数ρG,H的具体过程为:使用以下计算公式:
定义G=(g1,g2,…,gn),H=(h1,h2,…,hn),n≥3,则:其中
其中,n≥3,原始数据样本,即行向量,的维数不能低于4维,皮尔逊相关系数的绝对值越大,相关性越强,
0.8≤ρG,H≤1.0极强相关
0.6≤ρG,H<0.8强相关
0.4≤ρG,H<0.6中等强度相关
0.2≤ρG,H<0.4弱相关根据计算得出的皮尔逊相关系数的绝对值的大小,选择相关系数ρG,H≥0.8的u个样本作为目标样本的最近邻居,组成最近领居集N;
所述步骤6中插补值 的具体计算过程为:式中ρjv表示目标样本 与最近邻居v之间的皮尔逊相关系数, 表示样本v所对应的变量xb的值。
2.根据权利要求1所述的基于用户聚类的协同过滤缺失数据处理方法,其特征在于:所述步骤3中的k‑means聚类算法的具体过程为:步骤3.1:输入聚类数目k和完整数据矩阵C(p,n);
步骤3.2:从C(p,n)中随机选取k个数据样本作为聚类中心;
步骤3.3:把每个样本分配到离聚类中心距离最近的类中;
步骤3.4:计算每个类的平均值,得到k个平均值,将k个平均值作为下次聚类的k个聚类中心;
步骤3.5:重复步骤3.3和步骤3.4,直到k个平均值不再改变为止;
步骤3.6:输出最终的k个聚类中心 组成的矩阵K(k,n)和k个聚类结果矩阵,其中l=
1,2,…,k。
3.根据权利要求2所述的基于用户聚类的协同过滤缺失数据处理方法,其特征在于:所述步骤3.3中的聚类中心距离为欧氏距离。
4.根据权利要求2所述的基于用户聚类的协同过滤缺失数据处理方法,其特征在于:所述步骤3.4中每个类的平均值为个类中所有数据样本之和除以该类中数据样本数目。
5.根据权利要求1所述的基于用户聚类的协同过滤缺失数据处理方法,其特征在于:所述步骤4中的具体过程为:
步骤4.1:确定数据样本 中缺失值所在的列号b=(b1,b2....br)(r≤n‑3);
步骤4.2:去掉b列,得到完整数据样本E=(E1,E2....Et)(t≥3);
T
步骤4.3:聚类中心矩阵K(k,n)去掉b列,得到新的聚类中心矩阵F=(f1,f2....ft) (t≥
3);
步骤4.4:计算完整数据样本E中每个样本与新的聚类中心矩阵F的欧式距离;
步骤4.5:选取欧式距离最小所对应的聚类中心为数据样本 相近的类。