知嘟嘟-专利交易平台_专利购买_专利出售-买专利,上嘟嘟

欢迎来到知嘟嘟！联系电话：13336804447 卖家免费入驻，海量在线求购！卖家免费入驻，海量在线求购！

嘟嘟会员

帮助中心网站地图

查出售查高校查求购查年费

我要发布

首页转移热力图Hot 专利交易委托购买高校专区科技服务专利求购年费查询行业资讯

联系电话：13336804447

知嘟嘟经纪人

基于离散约束和封顶范数的肿瘤基因表达谱数据聚类方法

￥45000

专利号： 2018109490979

申请人：中国矿业大学

专利类型：发明专利

专利状态：已下证

更新日期：2024-01-05

缴费截止日期：暂无

价格&联系人

年费信息

委托购买

专利简介

专利详情

委托购买说明

需准备材料

常见问题

摘要:

权利要求书:

1.一种基于离散约束和封顶范数的肿瘤基因表达谱数据聚类方法，其特征在于，具体步骤为：步骤A：采用主成分分析方法对原始肿瘤基因表达谱数据进行降维；

步骤B：将降维后的肿瘤基因表达谱数据表示为一个包含多个低秩子空间的低秩矩阵和一个噪声矩阵相加的形式；

步骤C：利用K均值方法初始化每个低秩子空间，得到每个低秩子空间的样本标签向量，并将其转换成离散约束对角矩阵形式；

步骤D：利用低秩矩阵和离散约束方法表示每一个低秩子空间，并对每个低秩子空间采用Schatten p范数进行低秩逼近；

步骤E：采用封顶范数对噪声矩阵进行约束；

步骤F：利用增广拉格朗日乘子法对目标函数进行迭代优化，得到优化后的离散约束对角矩阵；

步骤G：根据优化后的每个低秩子空间的离散约束对角矩阵得到最终的聚类标签矩阵。

2.根据权利要求1所述一种基于离散约束和封顶范数的肿瘤基因表达谱数据聚类方法，其特征在于：所述步骤A中，给定原始肿瘤基因表达谱数据其中M为原始肿瘤基因表达谱数据的基因维数，N为原始肿瘤基因表达谱数据的样本个数，首先计算原始肿瘤基因表达谱数据的总体协方差矩阵：式中，表示原始肿瘤基因表达谱数据的均值；主成分分析方法的目标函数为：s.t.QTQ＝I

式中，I为单位矩阵，约束条件QTQ＝I，由于S为非负定对称矩阵，由非负定矩阵的谱分解定理可知，假设λ为S的秩，则：S＝λQ

设λ1,λ2,…,λm为上式中前m个最大特征值，其对应的特征向量为q1,q2,…,qm；采用主成分分析法的目标函数对原始肿瘤基因表达谱数据Y进行主成分特征提取，得到：X＝(q1,q2,…,qm)Y＝QY

式中，表示经过主成分分析方法降维后的肿瘤基因表达谱数据。

3.根据权利要求1所述一种基于离散约束和封顶范数的肿瘤基因表达谱数据聚类方法，其特征在于：所述步骤B中，给定降维后的肿瘤基因表达谱数据X，将降维后的肿瘤基因表达谱数据X表示为一个包含多个低秩子空间的低秩矩阵和一个噪声矩阵相加的形式，即：X＝A+E。

4.根据权利要求1所述一种基于离散约束和封顶范数的肿瘤基因表达谱数据聚类方法，其特征在于：所述步骤C中，给定包含多个低秩子空间的低秩矩阵A，利用K均值方法初始化每个低秩子空间，得到每个低秩子空间的样本标签向量，并将其转换成离散约束对角矩阵形式；具体步骤如下：步骤C1：输入多个低秩子空间的低秩矩阵A，给定聚类类别数目c，在A中随机选取c个样本作为初始聚类中心；

步骤C2：根据相似度准则将A中的每个样本分配到最接近的聚类中心，形成多个类；

步骤C3：以每类的平均向量作为新的聚类中心，更新聚类中心，重新分配样本；

步骤C4：循环执行步骤C2和步骤C3直至满足终止条件，终止条件为所有样本所属的聚类中心都不再变化时算法收敛，得到每个类别的样本标签；

步骤C5：定义每个低秩子空间为一个类别，根据步骤C4得到的每个类别的样本标签生成相应低秩子空间的样本标签向量，其中，若一个样本属于某一低秩子空间，则该样本在该低秩子空间的样本标签向量中相应的值为1，否则，值为0；

步骤C6：将步骤C5得到的每个低秩子空间的样本标签向量转换成离散约束对角矩阵形式。设第i个低秩子空间的样本标签向量表示为其中，若一个样本属于Ci，则该样本在Ci中相应的值为1，否则，值为0；第i个低秩子空间的离散约束对角矩阵形式表示为其中，Ii中每个对角元素的值对应Ci中相应位置元素的值，即Ii中第j个对角元素的值对应Ci中第j个元素的值；其次，利用降维后的肿瘤基因表达谱数据和离散约束方法表示每一个低秩子空间，即第i个低秩子空间可以表示为AIi，其中Ii的约束为表示在c个低秩子空间中，Ii是第i个大小为N×N且对角元素为0或1的离散约束对角矩阵；表示所有的c个低秩子空间的和是一个单位矩阵。

5.根据权利要求1所述一种基于离散约束和封顶范数的肿瘤基因表达谱数据聚类方法，其特征在于：所述步骤D中，利用低秩矩阵A和离散约束方法表示每一个低秩子空间，并对每个低秩子空间采用Schatten p范数进行低秩逼近，公式表示为定义一个矩阵L的Schatten p范数为其展开形式为

6.根据权利要求1所述一种基于离散约束和封顶范数的肿瘤基因表达谱数据聚类方法，其特征在于：所述步骤E中，采用封顶范数对噪声矩阵E进行约束，公式表示为其中θ＞0是阈值参数；当||Ei||2＞θ时，则Ei被当作离群值，此时对其进行封顶处理，即：||Ei||2＝θ；当||Ei||2≤θ时，则直接优化

7.根据权利要求1所述一种基于离散约束和封顶范数的肿瘤基因表达谱数据聚类方法，其特征在于：所述步骤F中，利用增广拉格朗日乘子法对目标函数进行迭代优化，得到优化后的离散约束对角矩阵；其目标函数表示为式中，λ是已知的可调节平衡参数；

由于目标函数是非凸的，采用增广拉格朗日乘子法进行求解，根据增广拉格朗日函数的定义，目标函数的拉格朗日函数表示为：式中，Ψ和是拉格朗日乘子项；

将目标函数的拉格朗日函数分为三个子优化选项：(1)当固定E和时，优化A；(2)当固定A和时，优化E；(3)固定A和E时，优化(1)当固定E和时，优化A

这时，目标函数的拉格朗日函数表示为

式中，B＝X-E+Ψ/μ；根据上式对A进行求偏导数并令式子为零得到

2AH+μ(A-B)＝0,

式中，H＝k(ATA)k-1；最终，得到优化后的AA＝μB(2H+μI)-1.

这里H是由A计算得到，利用交替迭代H和A得到最终优化后的A；

(2)当固定A和时，优化E

这时，目标函数的拉格朗日函数表示为