1.一种基于机器学习的结直肠癌免疫预后的预测方法,其特征在于,具体步骤包括:
S1.收集免疫相关标志和途径特征的基因集,使用单样本基因集富集分析方法和共识聚类方法,基于免疫相关标志和途径特征的基因集,对结直肠癌患者进行亚型分组,通过差异表达分析获得所对应的差异表达基因,比较不同免疫分组的差异表达基因,筛选出显著差异表达的基因;
S2.基于GSE17538数据集中CRC患者的总生存时间和生存状态对显著差异表达的基因进行单因素Cox回归分析,获得具有预后价值的免疫相关基因;
S3.基于免疫相关基因,利用机器学习组合算法训练多种预后模型,计算多种预后模型的C-index和C-index平均值,比较多种预后模型的C-index平均值,获知具有最高C-index平均值的组合算法模型,基于该组合算法模型构建结直肠癌免疫预后模型,该结直肠癌免疫预后模型中包含了13个基因,分别为CALB1、DOCK8、CASP1、RGS1、CD3D、BAG2、SOCS1、ISG15、SERPING1、GALNT6、GUCY2C、CFTR和APCDD1,根据结直肠癌免疫预后模型,计算每位患者的风险评分值;
S4.根据每位患者的风险评分值,预测GSE17538、GSE29621、GSE38832、GEO-meta及TCGA数据集中的结直肠癌患者的总体生存率和风险分组情况;
使用免疫相关标志和途径特征的基因集的单样本基因集富集分析方法和共识聚类方法,确定训练集患者的免疫分组的过程如下:采用单样本基因集富集分析方法,计算GSE17538数据集中每个样本免疫细胞的浸润水平以及免疫相关途径或功能强弱的富集分数,依据该分数,通过k-means算法对样本进行一致性聚类分析,通过分析,当K=2时获得最优分组数量,组间相关性降至最低,组内样本相关性最高,因此将结直肠癌样本分成Cluster1和Cluster2两个免疫亚组,其中Cluster1包含73个样本,Cluster2包含159个样本;
通过差异表达分析获得所对应的差异表达基因,比较不同免疫分组的差异表达基因,筛选出显著差异表达的基因,基于GSE17538数据集中CRC患者的总生存时间和生存状态对显著差异表达的基因进行单因素Cox回归分析,获得具有预后价值的免疫相关基因的过程如下:以|log2FC|>0.585和p<0.05为筛选标准,FC为表达水平变化值,p为基因表达差异置信度,在GSE17538数据集的Cluster1和Cluster2亚组间共鉴定了289个免疫相关的DEGs,其中,219个基因的mRNA表达水平显著上调,70个基因的mRNA表达水平显著下调;
深入分析289个免疫相关差异表达的基因对CRC患者生存预后的影响,基于GSE17538数据集中CRC患者的总生存时间和生存状态进行单因素Cox回归分析,分析结果显示36个基因的表达水平与CRC患者的预后存在显著相关性,即p<0.05,其中,P2RX7、SERPING1、CTSL、IFI30、DSE、DOCK8、WIPF1、ISG15、NIBAN1、BAG2、MAFB、PLXNC1、DPYD、RGS1、CLEC2B、CXCR4、ALOX5AP、GPNMB、LY96、MRC1和CALB1基因的HR值均大于1,而RUBCNL、PLCB4、VAV3、APCDD1、CXCL14、AXIN2、NR1I2、CFTR、GUCY2C、CASP1、PRR15、GALNT6、KLRB1、CD3D和SOCS1的风险比均小于1,提示这些基因对患者的生存状态具有影响,则该36个基因为具有预后价值的免疫相关基因;
基于免疫相关基因,利用机器学习组合算法训练多种预后模型,计算多种预后模型的C-index和C-index平均值的过程如下:基于机器学习组合算法训练93种预后模型,计算GSE17538、GSE29621、GSE38832、GEO-meta和TCGA数据集中每种模型的C-index及其C-index平均值,LASSO和GBM组合算法构建的模型具有最高的C-index平均值,因此采用LASSO和GBM算法的组合来建立最终的预后模型并计算每位患者的风险评分值;
对于每种模型,在每个数据集的测试集上计算C-index,依据的公式如下:
其中,C-index为一致性指数,为模型对第i个样本的风险评分值,xi为第i个样本的特征向量,xj为第j个样本的特征向量,为模型对第j个样本的风险评分值,Ti为第i个样本的生存时间,Tj为第j个样本的生存时间,1为指示函数,当括号内条件为真时值为1,否则为0;
C-index的取值范围在0到1之间,值越接近1表示模型的预测性能越好;
当C-index=1时,表示模型完美预测,即所有预测的风险评分与实际生存时间完全一致;
当C-index=0.5时,表示模型的预测性能等同于随机猜测;
当C-index<0.5时,表示模型的预测性能比随机猜测还要差;
对于每种模型,计算其在所有数据集上的C-index平均值,依据的公式如下:
其中,为每种模型的C-index平均值,Ck为第k个数据集上的C-index,N为数据集的数量,k的取值范围为1,2,...,N,N为数据集的总数;
比较多种预后模型的C-index平均值,获知具有最高C-index平均值的组合算法模型,基于该组合算法模型构建结直肠癌免疫预后模型,该结直肠癌免疫预后模型中包含了13个基因的过程如下:通过比较所有模型的平均C-index值,LASSO和GBM组合算法的模型具有最高的C-index平均值,则选择LASSO和GBM算法的组合来建立最终的预后模型,该预后模型的构建过程如下:LASSO回归用于从32个基因中选择最重要的特征,LASSO回归公式如下式:
其中,为最优的回归系数向量,argminβ为找到使目标函数达到最小值的回归系数向量,p为特征数量,yi为第i个样本的实际观测值,xiTβr为第i个样本的预测值,xiT为xi的转置,λ为正则化参数,βr为第r个特征的回归系数,r的取值范围为1,2,...,p,p为特征的总数,i的取值范围为1,2,...,n,n为样本的总数;
使用LASSO选择的特征,应用GBM进行建模;
GBM模型的预测值是多个树的加权和,依据的公式如下:
其中,为GBM模型对输入特征向量x的预测值,为第m棵树的预测值,m的取值范围为1,2,...,M,M为树的总数;
GBM模型通过逐步优化以下损失函数来构建模型:
其中,Lz为损失函数的总和,为第i个样本的损失值,为GBM模型对第i个样本的输入特征向量的预测值,为应用于基模型的正则化函数,Ω为应用于第m棵树的正则化项;
模型训练完成后,通过以下公式计算第τ个患者的风险评分值:
其中:RSτ为第τ个患者的风险评分值,为训练好的GBM模型对第τ个患者特征向量的预测值,τ的取值范围为1,2,...,G,G为患者的总数;
该预后模型中包含了13个基因,分别为CALB1、DOCK8、CASP1、RGS1、CD3D、BAG2、SOCS1、ISG15、SERPING1、GALNT6、GUCY2C、CFTR和APCDD1;
此方法不用于疾病诊断和治疗。
2.根据权利要求1所述的基于机器学习的结直肠癌免疫预后的预测方法,其特征在于:根据每位患者的风险评分值,预测SE17538、GSE29621、GSE38832、GEO-meta及TCGA数据集中的结直肠癌患者总体生存率的过程如下:Cox比例风险模型的基本公式如下:
h(t∣Xτ)=h0(t)exp(βTXτ)
其中,h(t∣Xτ)为关于第τ个患者的特征向量X的风险函数,β为各个特征的系数,Xτ第τ个患者的特征向量;
对于第τ个患者,根据其特征向量Xτ及各个特征的系数β,计算第τ个患者的风险评分值RSτ,依据的公式如下:RSτ=βTXτ
根据Cox模型估计基准生存函数,使用Kaplan-Meier方法估计基准生存函数,依据的公式如下:其中,S0(t)为基准生存函数,在时间t时所有特征变量X都为零的情况下的生存概率,h0(u)为基准风险函数,在时间u时所有特征变量X都为零的情况下的风险值,t为时间;
根据患者的风险评分值RSτ及基准生存函数S0(t),计算个体的生存函数,依据的公式如下:其中,S(t∣Xτ)为第τ个患者的个体生存函数,表示具有特征向量Xτ的个体在时间t时的生存概率;
将所有患者的个体生存函数平均,得出总体生存率,依据的公式如下:
其中,Sa(t)为所有患者的总体生存率。
3.根据权利要求2所述的基于机器学习的结直肠癌免疫预后的预测方法,其特征在于:根据每位患者的风险评分值,预测GSE17538、GSE29621、GSE38832、GEO-meta及TCGA数据集中的结直肠癌患者的风险分组过程如下:先采用"survminer"包获取风险评分值的最佳截断值,其过程如下:最佳截断值是将连续的风险评分值分为两个组的点,该点使得两组之间的生存差异最大,通过遍历所有可能的截断值,计算每个截断值下的生存曲线并比较其差异,最终选择使组间差异最大的截断值为最佳截断值M;
根据最佳截断值将患者分为高风险组和低风险组的过程如下:
当患者的风险评分值大于最佳截断值,即RSτ>M,则该患者属于高风险组;
当患者的风险评分值小于等于最佳截断值,即RSτ≤M,则该患者属于低风险组。