欢迎来到知嘟嘟! 联系电话:13336804447 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13336804447
知嘟嘟经纪人
收藏
专利号: 2025100072370
申请人: 长春师范大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2025-12-15
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种海量单细胞数据的自监督聚类方法,其特征在于所述方法包括如下步骤:步骤1)获取单细胞RNA-seq数据:从公开的基因表达数据库中下载单细胞RNA测序数据;

步骤2)数据预处理:对单细胞RNA-seq数据进行预处理,包括过滤、标准化和特征选择;

步骤3)快速Louvain算法初步聚类:利用快速Louvain算法对预处理后的单细胞RNA测序数据进行初步聚类,具体步骤如下:步骤3.1)对基因表达矩阵进行PCA降维,将高维数据投影到低维特征空间中;

步骤3.2)生成代表性锚点:通过生成数量为p的代表性锚点近似表示数据的潜在几何结构,从而构建稀疏矩阵,500≤p≤3000;

步骤3.3)邻近关系的建立与KNN筛选:在生成锚点后,使用KNN算法确定每个细胞与其最近的k个锚点,并通过选择最邻近的关系建立稀疏连接,5≤k≤20;

步骤3.4)生成一个N×p的稀疏相似性矩阵B:通过使用局部放缩的高斯核函数,将细胞与锚点之间的距离转化为相似性度量,稀疏相似性矩阵B的每一行对应一个细胞,每一列对应一个锚点,矩阵中的一个元素表示一对细胞与锚点之间的相似性度量,每一行只保留与当前细胞最近的k个锚点的相似性值,而其他元素设置为 0,从而生成一个N×p的稀疏相似性矩阵,N为细胞数量;

步骤3.5)构建稀疏邻接矩阵:根据稀疏相似性矩阵B,生成一个(N+p)×(N+p)的稀疏邻接矩阵W:其中:左上部分为一个N×N 的零矩阵,右下部分为一个p×p的零矩阵,B为表示细胞与锚点之间的相似性矩阵,BT为B的转置矩阵,表示锚点与细胞之间的相似性;

步骤3.6)权重矩阵的生成与标准化:对稀疏邻接矩阵W中的权重进行标准化处理,将稀疏邻接矩阵W转换为标准化后的稀疏权重矩阵A;

步骤3.7)应用Louvain算法进行初步聚类:将标准化后的稀疏权重矩阵A代入Louvain算法进行社区划分;

步骤4)筛选代表性细胞点:使用“聚类代表性”这一指标从初步聚类结果中筛选出具有代表性的细胞点,具体步骤如下:步骤4.1)聚类代表性计算:根据Louvain算法生成的初步聚类结果和权重矩阵,计算每个细胞点在所属聚类内的聚类代表性;

步骤4.2)代表性细胞筛选:对于每个初步聚类,选择聚类代表性最高的细胞点作为该聚类的代表性细胞,代表性细胞的数量为该聚类中细胞总数的2~5%;

步骤5)使用Transformer模型,得到最终的聚类结果:在每个初步聚类中筛选出具有代表性的细胞点后,使用Transformer模型,得到最终的聚类结果。

2.根据权利要求1所述的海量单细胞数据的自监督聚类方法,其特征在于所述步骤2)的具体步骤如下:步骤2.1)通过计算每个基因在所有细胞中的表达量,保留在至少1%的细胞中表达的基因,过滤掉表达量低于这一标准的基因;

步骤2.2)将基因表达矩阵转换为Seurat对象,使用SCTransform函数对数据进行标准化处理;

步骤2.3)使用FindVariableFeatures函数选择数据集中变异性最高的2000个基因。

3.根据权利要求1所述的海量单细胞数据的自监督聚类方法,其特征在于所述步骤3.4)中,用于计算稀疏相似性矩阵B的元素Bij的局部放缩的高斯核函数公式如下:式中,表示细胞与锚点之间的相似性,表示细胞与锚点之间的欧式距离,表示控制高斯核宽度的参数。

4.根据权利要求1所述的海量单细胞数据的自监督聚类方法,其特征在于所述步骤3.6)中,标准化公式如下所示:式中,为稀疏权重矩阵A中的一个元素,表示细胞与锚点之间的经过标准化后的权重值;为稀疏邻接矩阵W中的一个元素,表示细胞与锚点之间的原始权重值;和分别为稀疏邻接矩阵W中所有权重值的最小值和最大值。

5.根据权利要求1所述的海量单细胞数据的自监督聚类方法,其特征在于所述步骤3.7)中,Louvain算法通过最大化模块度Q来实现社区结构的划分,使用函数公式如下所示:式中,是稀疏权重矩阵A中的权重值,表示细胞i和细胞j之间的相似性强度,和分别是节点i和节点j的度数,为所有边权重之和,、为节点i、节点j所在的社区标签,即被分配到的社区编号,是Kronecker指示函数,当=时取值为1,否则为0。

6.根据权利要求1所述的海量单细胞数据的自监督聚类方法,其特征在于所述步骤4.1)中,聚类代表性的计算公式如下:式中,表示节点i在其所属聚类内的聚类代表性,表示节点i处于同一聚类的节点集合,为标准化后的稀疏权重矩阵A中的元素,表示节点i和节点j之间的边的权重。

7.根据权利要求1所述的海量单细胞数据的自监督聚类方法,其特征在于所述步骤5)的具体步骤如下:步骤5.1)模型训练:使用筛选出的代表性细胞点作为训练集来训练Transformer模型;

步骤5.2)模型预测:在训练完成后,使用训练好的Transformer模型对整个基因表达数据集进行预测,从而得到最终的聚类结果。

8.根据权利要求7所述的海量单细胞数据的自监督聚类方法,其特征在于所述步骤5.1)中,Transformer模型首先通过一个线性层将输入特征维度转换为模型内部的特征维度,公式如下所示:式中,表示基因表达数据矩阵,表示输入矩阵经过一个线性变换后的结果,表示对数据进行标准化,使其均值为0、方差为1,表示线性转换后并经过Layer Normalization的特征表示;

Transformer模型中每个层的核心是多头注意力机制,公式如下所示:式中,,,分别表示通过不同的投影矩阵获得的查询、键和值向量,表示注意力的缩放因子,是归一化函数,的值是一个权重分布,代表输入的不同部分之间的相关性;

步骤5.2)中,对于分类任务,损失函数采用交叉熵损失:

式中,表示在第i类的读入标签,表示模型预测的细胞点属于第i类的概率,为初步聚类得到的聚类数量。