1.一种特征基因选择及癌症分类方法,其特征在于,至少包括以下步骤:根据超参数组和待处理基因数据集建立logistic回归模型,具体为:根据交叉验证方法进行选择所述超参数组,所述logistic回归模型表达式为:其中,β=(β1,…,βp)为基因回归系数;
根据极大似然估算以及对算运算,将所述logistic回归模型表达为损失函数;
建立SCAD‑Net的求解模型;
结合所述损失函数和所述SCAD‑Net的求解模型,得到SNL模型,具体为:所述SNL模型的表达式为:
其中,l(β)为所述logistic回归损失函数, 为SCAD‑Net惩罚体;
计算所述SCAD‑Net的迭代更新算子,具体为:建立线性稀疏SCAD‑Net模型,表达式为:通过对(4)进行求βj的一阶偏导数并使其为0,我们可得:其中, 是 的第j分量, 为普通最小二乘估计的解;而其中,
综合(6)和(7)可得关于Pλ1,λ2,SCAD‑Net(β)的迭代更新算子:其中,sign(·)为符号函数, 表示当 时取否则取0;
根据所述迭代更新算子,通过坐标梯度下降法计算所述SNL模型的基因回归系数;
根据所述基因回归系数,进行特征基因的选择和癌症的分类。
2.如权利要求1所述的特征基因选择及癌症分类方法,其特征在于,所述根据超参数组和基因数据集建立logistic回归模型之前,还包括步骤:获取基因数据及基因调控网络,根据所述基因调控网将所述基因数据进行生物网络处理,得到待处理基因数据集。
3.如权利要求1所述的特征基因选择及癌症分类方法,其特征在于,所述根据极大似然估算以及对算运算,将所述logistic回归模型表达为损失函数,具体为:其中,l(·)称为损失函数,用于度量模型拟合值与观测值的误差。
4.如权利要求1所述的特征基因选择及癌症分类方法,其特征在于,所述建立SCAD‑Net的求解模型,其中所述SCAD‑Net的求解模型的表达式为:其中,
设基因i和基因k在生物调控网络中有连接,则wik=1或为0到1的实数,相反若无连接则wik=0;di和dk为基因i和基因k在生物调控网络中的度;λ1和λ2分别为调整模型稀疏度和模型平滑度的超参数;α为大于2.7的常数。
5.如权利要求1所述的特征基因选择及癌症分类方法,其特征在于,所述根据所述迭代更新算子,通过坐标梯度下降法计算所述SNL模型的基因回归系数,具体为:通过泰勒公式对SNL模型进行线性化处理,得到线性化的目标函数;根据坐标梯度下降法求解所述线性化的目标函数,得到所述SNL模型的基因回归系数。
6.如权利要求1所述的特征基因选择及癌症分类方法,其特征在于,所述根据所述基因回归系数,进行基因的选择和癌症的分类,具体为:根据所述基因回归系数,建立所述待处理基因数据集的预测模型,根据所述预测模型,进行特征基因的选择和癌症的分类。