1.非均匀大数据的分类方法,包括下述步骤:
(1)获得大数据各类实例的数目mi,i=1,2,…,M;
(2)采用降抽样方法为每个类mi抽样出Di数据集;
(3)对每个数据集构建一个元分类器;
(4)对每个类mi的Di个分类器进行集成学习;
(5)测试:对每一个实例,在每个类mi中进行分类,得到的M个结果中准确率最高的类为测试实例的类别。
2.根据权利要求1的方法,所述步骤(2)的每个数据集的数据量ni由 确定,其中ta/2表示置信度的值,通过t分布临界值获得,e表示设定的最大的允许误差。
3.根据权利要求1或2的方法,所述步骤(2)的具体过程如下:A.当前类当成A类,其他类统一称为非A类;接着,分析A类和非A类的数量级别;记#(A),#(~A),#(R),#(T)分别为A类,非A类,计算机内存和理论要求的样本量的数据,如果(#(A)>>#(R))&&(#(A)>#(T)),则从A类中抽取与非A类差不多的实例;如果(#(~A)>>#(R))&&(#(~A)>#(T)),则从非A类中抽取与A类差不多的实例;
B.重复上述过程,直至每个类mi抽样出Di,并固定Di=n;
C.整个数据集生成D=M*n个子数据集。
4.根据权利要求1的方法,在步骤(3),对每个类mi的Di个数据集构建Di个元分类器的方法选自:二类分类法、最近邻算法、决策树法、神经网络法或森林树法。
5.根据权利要求1或4的方法,在步骤(3),对每个类mi的Di个数据集构建Di个元分类器的方法选用:二类分类法。
6.根据权利要求1的方法,在步骤(4),采取向前贪婪集成分类结果方法对每个类mi的Di个元分类器进行集成学习,得到一个集成分类器。
7.根据权利要求1或6的方法,在步骤(4),采取向前贪婪集成分类结果方法的具体过程如下:D.构建候选分类器集合CCS={C1,…,CM}和选定的分类器集合SCS={};
E.对每个分类器Ci,选取准确率最好的分类器,把它从CCS去掉而加入SCS中;
F.把当前每个CCS中的分类器Cj加入SCS中验证,分类结果如果超过用户事先指定的阈值,则跳到E,且把Cj从CCS移到SCS,否则跳到步骤(5);
G.重复F,直到CCS为空集,
至此,对M个类,一共建立了M个集成分类器Ci,i=1,…,M,每个集成分类器包含n个元分类器。