1.一种基于离散约束和封顶范数的肿瘤基因表达谱数据聚类方法,其特征在于,具体步骤为:步骤A:采用主成分分析方法对原始肿瘤基因表达谱数据进行降维;
步骤B:将降维后的肿瘤基因表达谱数据表示为一个包含多个低秩子空间的低秩矩阵和一个噪声矩阵相加的形式;
步骤C:利用K均值方法初始化每个低秩子空间,得到每个低秩子空间的样本标签向量,并将其转换成离散约束对角矩阵形式;
步骤D:利用低秩矩阵和离散约束方法表示每一个低秩子空间,并对每个低秩子空间采用Schatten p范数进行低秩逼近;
步骤E:采用封顶范数对噪声矩阵进行约束;
步骤F:利用增广拉格朗日乘子法对目标函数进行迭代优化,得到优化后的离散约束对角矩阵;
步骤G:根据优化后的每个低秩子空间的离散约束对角矩阵得到最终的聚类标签矩阵。
2.根据权利要求1所述一种基于离散约束和封顶范数的肿瘤基因表达谱数据聚类方法,其特征在于:所述步骤A中,给定原始肿瘤基因表达谱数据其中M为原始肿瘤基因表达谱数据的基因维数,N为原始肿瘤基因表达谱数据的样本个数,首先计算原始肿瘤基因表达谱数据的总体协方差矩阵:式中,表示原始肿瘤基因表达谱数据的均值;主成分分析方法的目标函数为:s.t.QTQ=I
式中,I为单位矩阵,约束条件QTQ=I,由于S为非负定对称矩阵,由非负定矩阵的谱分解定理可知,假设λ为S的秩,则:S=λQ
设λ1,λ2,…,λm为上式中前m个最大特征值,其对应的特征向量为q1,q2,…,qm;采用主成分分析法的目标函数对原始肿瘤基因表达谱数据Y进行主成分特征提取,得到:X=(q1,q2,…,qm)Y=QY
式中, 表示经过主成分分析方法降维后的肿瘤基因表达谱数据。
3.根据权利要求1所述一种基于离散约束和封顶范数的肿瘤基因表达谱数据聚类方法,其特征在于:所述步骤B中,给定降维后的肿瘤基因表达谱数据X,将降维后的肿瘤基因表达谱数据X表示为一个包含多个低秩子空间的低秩矩阵 和一个噪声矩阵相加的形式,即:X=A+E。
4.根据权利要求1所述一种基于离散约束和封顶范数的肿瘤基因表达谱数据聚类方法,其特征在于:所述步骤C中,给定包含多个低秩子空间的低秩矩阵A,利用K均值方法初始化每个低秩子空间,得到每个低秩子空间的样本标签向量,并将其转换成离散约束对角矩阵形式;具体步骤如下:步骤C1:输入多个低秩子空间的低秩矩阵A,给定聚类类别数目c,在A中随机选取c个样本作为初始聚类中心;
步骤C2:根据相似度准则将A中的每个样本分配到最接近的聚类中心,形成多个类;
步骤C3:以每类的平均向量作为新的聚类中心,更新聚类中心,重新分配样本;
步骤C4:循环执行步骤C2和步骤C3直至满足终止条件,终止条件为所有样本所属的聚类中心都不再变化时算法收敛,得到每个类别的样本标签;
步骤C5:定义每个低秩子空间为一个类别,根据步骤C4得到的每个类别的样本标签生成相应低秩子空间的样本标签向量,其中,若一个样本属于某一低秩子空间,则该样本在该低秩子空间的样本标签向量中相应的值为1,否则,值为0;
步骤C6:将步骤C5得到的每个低秩子空间的样本标签向量转换成离散约束对角矩阵形式。设第i个低秩子空间的样本标签向量表示为 其中,若一个样本属于Ci,则该样本在Ci中相应的值为1,否则,值为0;第i个低秩子空间的离散约束对角矩阵形式表示为其中,Ii中每个对角元素的值对应Ci中相应位置元素的值,即Ii中第j个对角元素的值对应Ci中第j个元素的值;其次,利用降维后的肿瘤基因表达谱数据和离散约束方法表示每一个低秩子空间,即第i个低秩子空间可以表示为AIi,其中Ii的约束为表示在c个低秩子空间中,Ii是第i个大小为N×N且对角元素为0或1的离散约束对角矩阵; 表示所有的c个低秩子空间的和是一个单位矩阵。
5.根据权利要求1所述一种基于离散约束和封顶范数的肿瘤基因表达谱数据聚类方法,其特征在于:所述步骤D中,利用低秩矩阵A和离散约束方法表示每一个低秩子空间,并对每个低秩子空间采用Schatten p范数进行低秩逼近,公式表示为 定义一个矩阵L的Schatten p范数为 其展开形式为
6.根据权利要求1所述一种基于离散约束和封顶范数的肿瘤基因表达谱数据聚类方法,其特征在于:所述步骤E中,采用封顶范数对噪声矩阵E进行约束,公式表示为其中θ>0是阈值参数;当||Ei||2>θ时,则Ei被当作离群值,此时对其进行封顶处理,即:||Ei||2=θ;当||Ei||2≤θ时,则直接优化
7.根据权利要求1所述一种基于离散约束和封顶范数的肿瘤基因表达谱数据聚类方法,其特征在于:所述步骤F中,利用增广拉格朗日乘子法对目标函数进行迭代优化,得到优化后的离散约束对角矩阵;其目标函数表示为式中,λ是已知的可调节平衡参数;
由于目标函数是非凸的,采用增广拉格朗日乘子法进行求解,根据增广拉格朗日函数的定义,目标函数的拉格朗日函数表示为:式中,Ψ和 是拉格朗日乘子项;
将目标函数的拉格朗日函数分为三个子优化选项:(1)当固定E和 时,优化A;(2)当固定A和 时,优化E;(3)固定A和E时,优化(1)当固定E和 时,优化A
这时,目标函数的拉格朗日函数表示为
式中,B=X-E+Ψ/μ;根据上式对A进行求偏导数并令式子为零得到
2AH+μ(A-B)=0,
式中,H=k(ATA)k-1;最终,得到优化后的AA=μB(2H+μI)-1.
这里H是由A计算得到,利用交替迭代H和A得到最终优化后的A;
(2)当固定A和 时,优化E
这时,目标函数的拉格朗日函数表示为
式中,F=X-A+Y/μ;上式表示为以下形式
式中, 进一步地,将上式表示为
式中,O是一个对角矩阵,且Oii=oi;上式利用迭代重加权方法进行求解;当固定O时,根据上式对E进行求偏导数并令式子为零,得到
2λEO+μ(E-F)=0,
最终,可以得到优化后的E
E=μF(2λO+μI)-1.
当固定E时,O的优化更新规则为
(3)固定A和E时,优化
这时,目标函数的拉格朗日函数表示为
对上式求偏导数并令式子等于零,则偏导数公式为
令 则上述偏导数公式可以表示为
由于Gi可以通过A和Ii计算得到,因此,利用迭代算法来得到偏导数公式的最优解;Gi通过A和初始化的Ii计算得到,如果固定Gi,这时的Ii即满足以下简化后的目标函数Ii可以通过简化后的目标函数进行优化;
令Zi=ATGiA,则简化后的目标函数表示为
由于 则 上述公式可以展开为
式中,rci是Ii中的第c个对角元素,aci是Zi中的第c个对角元素;rci可以由以下条件优化得到通过优化Ii中每个对角元素,得到优化后的离散约束对角矩阵Ii。
8.根据权利要求1所述一种基于离散约束和封顶范数的肿瘤基因表达谱数据聚类方法,其特征在于:所述步骤G中,根据优化后的每个低秩子空间的离散约束对角矩阵得到最终的聚类标签矩阵,将每一个优化后的离散约束对角矩阵Ii表示成一个行向量 将每个行向量合并,最终得到优化后的聚类标签矩阵