1.生物标志物在构建结直肠癌预后风险预测模型中的应用,其特征在于:所述生物标志物由基因INHBA、GALNT6、ZNF239、PDE6A、PTPRR、HSD17B2、CD177、CDKN2B、MALL、LGALS2、BTNL8、SCG2和PCOLCE2组成,其中,所述结直肠癌预后风险预测模型,通过以下步骤构建:S1:从GEO和TCGA数据库获取结直肠癌患者的表达谱数据和临床信息数据,这两种数据用于预后风险预测模型的构建与验证,数据包括训练集和验证集,同时从GEO数据库获取癌症组织样本和正常对照组织样本的表达谱数据;
S2:将癌症组织样本和正常对照组织样本标准化后的基因表达矩阵进行差异表达分析,得到差异表达基因;
S3:将差异表达基因在训练集中进行单因素Cox回归和PH检验分析,筛选出预后相关基因;
S4:对筛选得到的基因进行LASSO Cox回归分析,通过交叉验证确定最优的λ值,筛选出组成预后风险预测模型的基因,并根据筛选出来的每个基因的回归系数和其在训练集和验证集中的标准化后的表达水平计算每个数据集中各患者的风险评分;
S5:根据所述风险评分评估所述预后风险预测模型的预测性能;
其中根据所述风险评分评估所述预后风险预测模型的预测性能的方法包括:以验证集和训练集的风险评分和临床指标作为变量进行多因素Cox回归分析,判断基于预后风险预测模型的风险评分是否能够作为结直肠癌的独立预后因子,同时根据风险评分进行KM生存曲线、时间依赖性的ROC曲线分析,评估该预后风险预测模型对结直肠癌患者总体生存时间的预测性能;
根据风险评分进行KM生存曲线、时间依赖性的ROC曲线分析,评估该预后风险预测模型对结直肠癌患者总体生存时间的预测性能的方法包括:
根据风险评分对样本进行升序或降序排列,确定样本的中位数,将风险评分大于中位数的样本作为高风险组,将风险评分小于中位数的样本作为低风险组;以训练集和验证集的样本预后信息创建生存对象并拟合生存曲线,绘制可视化的KM生存曲线,采用log-rank统计检验分析结直肠癌患者高风险组和低风险组之间总体生存概率的差异性;选取训练集和验证集的样本信息及预后信息中多个年度的生存率进行时间依赖的ROC分析并绘制曲线,计算曲线下的面积值及其置信区间,依据面积值评估该预后风险预测模型对结直肠癌患者总体生存时间的预测性能;
基于模型计算的风险评分和常见的临床指标为变量进行多因素Cox回归分析,评估了构建的模型是否具有独立预后价值;使用R语言“survival”包分别以下述的数据构建生存函数,对模型基因进行多次验证,以验证集和训练集的风险评分和临床指标作为变量进行多因素Cox回归分析,得到各变量的风险比及其置信区间和p值,进而判断基于预后风险预测模型的风险评分是否能作为结直肠癌的独立预后因子,并用R语言“forestplot”包做出森林图展示多因素Cox回归的结果,其中使用的数据包括OS生存指标数据集、DSS生存指标数据集以及DFS生存指标数据集;
所述基因INHBA、GALNT6、ZNF239、PDE6A、PTPRR、HSD17B2、CD177、CDKN2B、MALL、LGALS2、BTNL8、SCG2和PCOLCE2对应的回归系数分别为0.008048177、-0.014590776、0.169851027、-0.141714084、0.080175473、0.286836794、-0.115094672、0.070682084、0.044238906、-0.16681854、-0.071504884、0.281751541和0.070570821;
在S4中,所述风险评分的计算公式为:
其中,Coef表示模型中每个基因的回归系数,E表示模型中每个基因标准化后的表达水平,i表示模型中基因的索引,n表示模型中包含的基因数量。
2.根据权利要求1所述的生物标志物在构建结直肠癌预后风险预测模型中的应用,其特征在于:在S3中,将差异表达基因在训练集中进行单因素Cox回归和PH检验分析,筛选出预后相关基因的方法包括:删除训练集预后信息中缺失总体生存时间和生存结局的样本;在单因素Cox回归分析中,将差异表达基因在训练集中标准化的基因表达矩阵、样本的总体生存时间和生存结局信息作为输入文件进行单因素Cox回归分析,筛选出满足PH回归假设且p值小于设定值的与样本预后时间显著相关的基因。