1.一种基于生成对抗网络的单细胞数据关系测序聚类方法,其特征在于所述方法包括如下步骤:步骤1、数据获取:
从公开数据库中下载单细胞RNA测序数据;
步骤2、数据处理:
步骤2-1、过滤稀疏基因和细胞:删除表达比例低于整个数据集中1%的基因,以及表达比例低于整个数据集中1%的细胞;
步骤2-2、选取关键基因:从剩余的基因中选择表现最为显著的2000个基因;
步骤2-3、构建基因表达矩阵:对所有基因进行筛选,去除表达比例不到设定的基因,构建新的基因表达矩阵DF;
步骤3、图构建:
步骤3-1、归一化处理:对初始的基因表达矩阵DF进行归一化操作,构建归一化矩阵B;
步骤3-2、PCA降维:对归一化后矩阵B每行的基因利用PCA降维成基因特征表达矩阵X2,利用基因特征表达矩阵X2获取细胞新特征表达矩阵X1;
步骤3-3、细胞间距离矩阵:对细胞新特征表达矩阵X1进行PCA,得到降维后的细胞新特征表达矩阵X3,通过计算降维后的细胞新特征表达矩阵X3中各细胞之间的欧氏距离,得到细胞间距离矩阵P;
步骤3-4、细胞间邻接矩阵:根据KNN算法,利用细胞间距离矩阵 P构建细胞间邻接矩阵,并对行归一化,得到新的细胞间邻接矩阵A1;
步骤3-5、细胞基因间邻接矩阵:根据归一化矩阵B和公式,得到细胞与基因之间的邻接矩阵,再对行归一化,得到新的细胞基因间邻接矩阵W,其中:B表示数据矩阵,B[k,j]表示第k个基因在第j个细胞中的表达量,表示图神经网络中的权重矩阵元素,m代表基因总数减1;
步骤3-6、构建完整邻接矩阵:将细胞间邻接矩阵A1、细胞基因间邻接矩阵W、零矩阵及单位矩阵合并为整体的邻接矩阵A,并构建相应细胞-基因连接图;
步骤4、图自编码器训练:
构建包含多层图卷积层和线性层的GCN编码器-解码器模型作为图自编码器,将细胞新特征表达矩阵X1和基因特征表达矩阵X2合并形成特征矩阵X,将特征矩阵X和邻接矩阵A输入到GCN编码器-解码器模型中进行训练,生成初步的细胞聚类标签;
步骤5、选点与深度模型聚类:
步骤5-1、选择代表性样本:获取初始聚类标签后,通过Kmeans获取每个聚类的质心坐标,再利用Norm函数计算每个细胞距离质心的距离,在每个类别中选取距离质心最近的前30~50%的细胞样本作为代表性样本;
步骤5-2、对抗网络训练:
(1)数据准备:加载基因表达数据和聚类标签数据,并对代表性样本进行标准化处理;
(2)定义生成器和判别器:
生成器:用于生成与真实细胞嵌入相似的假嵌入表示,结构包括多层线性层和LeakyReLU激活函数,输出层使用Tanh激活函数以适应特征值范围;
判别器:用于区分真实样本和假样本,结构包括多层线性层和LeakyReLU激活函数,输出层使用Softmax激活函数进行多分类;
(3)训练判别器:输入真实细胞样本,计算真实样本的损失;生成假细胞样本,计算假样本的损失;判别器的总损失为真实样本损失和假样本损失之和;
(4)训练生成器:生成假细胞样本,通过判别器计算假样本的输出;生成器的损失为欺骗判别器的损失,即希望假样本被判别器认为是真样本;通过对抗训练,优化生成器,使其生成的嵌入表示更加逼近真实数据的分布;
步骤6、重新聚类:
步骤6-1、训练完成后,使用判别器对所有细胞样本进行分类,计算每个样本属于各个真实类别的概率,最终得到每个细胞的聚类标签;
步骤6-2、使用标签一致性算法,确保所有细胞样本的聚类标签数量与预期一致,从而完成重新聚类。
2.根据权利要求1所述的基于生成对抗网络的单细胞数据关系测序聚类方法,其特征在于所述步骤3-3中,细胞间距离矩阵P的计算公式如下:式中,表示细胞距离矩阵P中细胞i和细胞j之间的欧氏距离,表示降维后的细胞新特征表达矩阵X1中细胞i在第k个维度上的值,表示降维后的细胞新特征表达矩阵X1中细胞j在第k个维度上的值。
3.根据权利要求1所述的基于生成对抗网络的单细胞数据关系测序聚类方法,其特征在于所述步骤4具体步骤如下:步骤4-1、编码:使用多层图卷积层对输入特征进行编码;
步骤4-2、解码:使用线性层对编码后的特征进行解码,重构邻接矩阵,解码器通过多层线性层逐步还原编码信息,最后使用Sigmoid函数输出重建的邻接矩阵;
步骤4-3、训练:通过最小化重建误差优化模型参数,训练过程中,模型不断调整权重以减少实际邻接矩阵与重建邻接矩阵之间的差异;
步骤4-4、潜在变量生成:训练完成后,模型输出降维后的潜在变量Z,Z包含细胞和基因的嵌入表示,其中前n维代表细胞的特征表达;
步骤4-5、初步聚类:使用K-Means算法对细胞的特征表示进行聚类,生成初步的细胞聚类标签。
4.根据权利要求3所述的基于生成对抗网络的单细胞数据关系测序聚类方法,其特征在于所述步骤4-1的具体步骤如下:每一层图卷积层通过邻接矩阵A传播信息,提取更高阶的特征表示,每层图卷积层后应用LeakyReLU激活函数和批量归一化,以提高模型的表达能力和稳定性,图卷积层完整公式如下:式中,A是邻接矩阵,X是节点特征矩阵,,是传播后的节点特征,,W是可学习的权重矩阵,为非线性激活函数,,BatchNorm是批量归一化操作,用于加速训练和提高模型性能。