欢迎来到知嘟嘟! 联系电话:13336804447 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13336804447
知嘟嘟经纪人
收藏
专利号: 2024111285713
申请人: 西安理工大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-12-26
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于自监督学习的piRNA与疾病关联关系的识别方法,其特征在于,包括如下步骤:步骤S1:构建piRNA与疾病关联关系识别研究的基准数据集;

步骤S2:计算多维度piRNA相似性和疾病相似性;

步骤S3:创建基于多视图的特征矩阵;

步骤S4:构建一种基于自监督学习的piRNA与疾病关联关系的识别模型,获取关联关系识别分数;

步骤S5:利用步骤S4得到的识别分数,详细分析和量化piRNA与疾病之间是否存在边的关系,以便识别piRNA与疾病的关联关系;

其中,所述步骤S1具体包括:

步骤S11:根据MeSH数据库中疾病ID,针对piRDisease、pirpheno和MNDR三个公开数据库中的疾病表述数据,标准化疾病名称,确保疾病名称的一致性和唯一性;

步骤S12:根据piRBase数据库中piRNA ID和序列,统一三个公开数据库中的piRNA标识符,确保piRNA的一致性和唯一性;

步骤S13:根据步骤S11中MeSH数据库,合并三个公开数据库中的piRNA与疾病关联数据得到二值化的piRNA与疾病关联矩阵,确保每对piRNA与疾病关联都被包括在内;对关联关系进行去重清洗,确保每对piRNA与疾病关联在最终数据集中唯一存在;

其中,所述步骤S4具体包括:

步骤S41:根据步骤S13获得的piRNA与疾病关联矩阵,通过奇异值分解技术对关联矩阵进行分解,重构SVD视图,并与原始视图进行对比,得到重构后的矩阵和原始矩阵;

步骤S42:将得到的原始矩阵和重构的矩阵基于特征和结构的两种增广策略进行数据增强操作;

步骤S43:将数据增强后的两个矩阵作为嵌入初始矩阵,分别输入到两个共享权重的轻量图卷积网络编码器进行特征提取;

步骤S44:利用提取后的两个特征矩阵,分别通过两个KAN网络进行特征映射,得到两个映射矩阵;

步骤S45:基于映射矩阵计算对称归一化温度交叉熵损失函数及均方误差优化图结构;

其中,所述步骤S42具体包括:

步骤S421:根据步骤S3所获得的多视图特征矩阵,通过遮蔽关联度较低的结点特征向量来进行数据增强操作;

步骤S422:根据步骤S412获得的重构矩阵,通过丢弃权重较低的边进行数据增强操作。

2.如权利要求1所述的一种基于自监督学习的piRNA与疾病关联关系的识别方法,其特征在于,所述步骤S2具体包括:步骤S21:根据步骤S12获取三个公开数据中的piRNA序列片段,得到10289条piRN A序列信息;利用PseKNC特征表示方法,计算基于伪K元组核苷酸组成的piRNA相似性;

步骤S22:根据步骤S12获取三个公开数据中的piRNA序列片段,得到10289条piRN A序列信息;利用史密斯沃特曼对比算法,计算piRNA序列相似性;

步骤S23:根据步骤S13获取三个公开数据中的piRNA与疾病关联数据,得到16251条关联数据,利用关联数据计算piRNA高斯核相似性;

步骤S24:根据步骤S11获取三个公开数据中的疾病ID,得到111种疾病,利用MeS H疾病数据库信息计算疾病语义相似性;

步骤S25:根据步骤S11获取三个公开数据中的疾病ID,得到111种疾病;利用疾病本体数据库的疾病本体信息和疾病的基因注释信息计算疾病本体相似性;

步骤S26:根据步骤S13获取三个公开数据中的piRNA与疾病关联数据,得到16251条关联数据,利用关联数据计算疾病高斯核相似性。

3.如权利要求2所述的一种基于自监督学习的piRNA与疾病关联关系的识别方法,其特征在于,所述步骤S21具体包括:步骤S211:计算piRNA序列的二元组核苷酸组合的频率;

将一个piRNA序列记为S,如下所示:

S=,N-1.,N-2....,N-i....,N-L.,,N-i.∈{A,G,C,I}其中,piRNA序列依据cDNA的形式存储,A表示腺嘌呤,G表示鸟嘌呤,C表示胞嘧啶,I表示胸腺嘧啶,N步骤S212:计算piRNA序列的PseKNC特征向量;

其中,PseKNC特征向量是指基于K-tuple组合数方法生成的特征向量,所述piRNA序列的PseKNC特征向量E表示如下:其中,

其中,w是权重因子,λ是延迟参数,θ

步骤S213:计算两个piRNA序列的PseKNC特征向量的余弦相似性PS其中,E(p

4.如权利要求1所述的一种基于自监督学习的piRNA与疾病关联关系的识别方法,其特征在于,所述步骤S41具体包括:步骤S411:对关联矩阵进行归一化处理后利用奇异值分解技术进行分解操作;

步骤S412:根据分解后得到的正交矩阵和对角矩阵构建重构矩阵。

5.如权利要求1所述的一种基于自监督学习的piRNA与疾病关联关系的识别方法,其特征在于,所述步骤S45具体包括:步骤S451:根据映射矩阵计算对称归一化温度交叉熵损失函数;

步骤S452:利用计算得到的损失函数,进一步通过均方误差优化图结构,获得最优化图结构作为识别分数。