1.一种基于双超图正则化的肿瘤基因表达谱数据双聚类方法,其特征在于,具体步骤为:
步骤I:将肿瘤基因表达谱数据采用主成分分析方法分解为基因聚类矩阵和样本聚类矩阵,具体为:
m×n
给定肿瘤基因表达谱数据X=(x1,x2,…,xn)∈R ,其中m为肿瘤基因表达谱数据的基因维数,n为肿瘤基因表达谱数据的样本个数;利用主成分分析法计算得到肿瘤基因表达谱m×k n×k
数据X的主成分矩阵U∈R 和样本映射矩阵V∈R ,其中,U中包含k个主成分,V由对X进行映射到k维得到;则主成分分析法的目标函数表示为T
式中,V V=I表示样本映射矩阵V是正交矩阵;设肿瘤基因表达谱数据包含k类,则主成分矩阵U和样本映射矩阵V分别被确定为基因聚类矩阵和样本聚类矩阵;
步骤Ⅱ:根据肿瘤基因表达谱数据的样本构建样本超图,具体为:根据给定肿瘤基因表达谱数据X构建样本超图;定义样本超图为Gs=(Vs,Es,Ws),其中Vs是样本顶点的集合,Es是样本超边的集合,Ws是样本超边的权值矩阵;设关联矩阵为其作用是表示基因超边与基因顶点之间的关系;Hs中的元素定义为式中,x·i表示Vs中的第i个顶点,e表示Es中超边且每一个超边由多个顶点构成,Hs用来判断第i个顶点是否属于超边e;
对于超边e,其权值矩阵Ws(e)定义为式中, K是第j个顶点的近邻数目;根据Hs和Ws,每个顶点x·i∈Vs的度表示为
每个超边e的度表示为
定义Dxs、Des和DWs分别为顶点的度的对角矩阵、超边的度的对角矩阵和超边权值的对角矩阵,建立样本超图的拉普拉斯矩阵步骤Ⅲ:根据肿瘤基因表达谱数据的基因构建基因超图,具体步骤为:根据给定肿瘤基因表达谱数据X构建基因超图;定义基因超图为Gg=(Vg,Eg,Wg),其中Vg是基因顶点的集合,Eg是基因超边的集合,Wg是基因超边的权值矩阵;设关联矩阵为其作用是表示基因超边与基因顶点之间的关系;Hg中的元素定义为式中,xi·表示Vg中的第i个顶点,e表示Eg中超边且每一个超边由多个顶点构成,Hg用来判断第i个顶点是否属于超边e;
对于超边e,其权值矩阵Wg(e)定义为式中, K是第j个顶点的近邻数目;根据Hg和Wg,每个顶点xi·∈Vg的度表示为
每个超边e的度表示为
定义Dxg、Deg和DWg分别为顶点的度的对角矩阵、超边的度的对角矩阵和超边权值的对角矩阵,建立样本超图的拉普拉斯矩阵步骤Ⅳ:将样本超图和基因超图作为分别作为主成分分析的样本超图正则项和基因超图正则项,确定优化目标函数的形式,具体步骤为:将得到样本超图 和基因超图 分别作为主成分分析的样本超图正则项和基因超图正则项,提出优化目标函数的表达式为式中,α和β是大于0的正则化参数;
步骤Ⅴ:通过优化目标函数对步骤I的样本聚类矩阵和基因聚类矩阵进行优化,得到优化后的样本聚类矩阵和基因聚类矩阵;
步骤VII:根据优化后的样本聚类矩阵和基因聚类矩阵得出最终的样本聚类和基因聚类。
2.根据权利要求1所述一种基于双超图正则化的肿瘤基因表达谱数据双聚类方法,其特征在于:所述步骤Ⅴ中,首先,将目标函数展开为以下形式:*
当固定V不变时,对上式进行求偏导数并使式子为0,通过线性代数计算得到优化后的U* *
令U=AXV,其中 将U代入到目标函数中,得到关于V的函数为对上式进行数学推导,结果如下式中,利用替代矩阵B代替 即:由于B中的所有项都是已知的,关于V的函数表示为*
因此,优化后的V通过计算B中最小的k个特征值得到,即:*
V=(b1,b2,…,bk),式中,b1,b2,…,bk是B中最小的k个特征值;
* *
最终,得到优化的样本聚类矩阵V和基因聚类矩阵U。
3.根据权利要求1所述一种基于双超图正则化的肿瘤基因表达谱数据双聚类方法,其* n×k
特征在于:所述步骤Ⅵ中,在样本聚类矩阵V∈R 的每一个样本中,如果第i个列的值是k* m×k
个类中的最大值,则将该样本聚到第i类;在基因聚类矩阵U ∈R 的每一个基因中,如果第j个列的值是k个类中的最大值,则将该样本聚到第j类,最终完成样本聚类和基因聚类。