欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2024102339555
申请人: 鲁东大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-04-08
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于深度迁移学习的调控变异预测方法,其特征在于,将上下文无关的非编码变异视为源域,上下文相关的功能性非编码变异视为目标域,通过迁移学习可以将源域知识迁移到目标域中,使用多任务学习方法在模型预训练时综合考虑模型特征提取能力和模型预测能力,该方法包括DNA序列预处理、模型构建、模型预训练、模型迁移、模型预测五个步骤、其具体步骤如下:步骤1、首先构建源域数据,获得M个长度为P的非编码区通用变异,并获取对应的标签;

其次构建目标域数据,获得N个长度为P的调控变异,并获取对应的标签;将获得的数据进行独热编码,组成训练数据和测试数据;

步骤2、使用一维卷积自编码器对独热矩阵进行特征压缩,将得到的特征输入前馈神经网络学习特征映射并进行分类,同时将特征输入到一维卷积自解码器进行特征重构;

步骤3、使用交叉熵误差计算前馈神经网络的预测结果与真实标签的差异,同时采用均方误差计算一维卷积自动解码器的输出特征与输入特征的差异,并将二者损失混合后进行反向传播训练模型;

步骤4、使用步骤3获得的编码器迁移到目标域数据进行特征压缩,并结合前馈神经网络进行训练,为了防止过拟合,编码器不进行微调,只针对新的全连接层训练,保存训练好的模型;

步骤5、使用步骤4训练好的模型对目标域测试数据进行预测,获得分类的结果。

2.根据权利要求1所述的一种基于深度迁移学习的调控变异预测方法,其特征在于,使用独热编码可以有效表示DNA序列的时空特征,DNA序列的预处理的实现过程如下:对获得的DNA序列数据进行独热编码,具体是根据序列中A、C、G、T 四种碱基分别对应[1,0,0,0]、[0,1,0,0]、[0,0,1,0]、[0,0,0,1]四种数据矩阵来编码,编码后源域数据和目标域数据对应维度分别是M×P×4,N×P×4,其中M为源域数据的个数,N为目标域数据的个数,P为序列的长度。

3.根据权利要求1所述的一种基于深度迁移学习的调控变异预测方法,其特征在于,通过卷积自编码器学习如何压缩DNA序列和重构DNA序列,同时使用编码器产生的特征向量进行预测,可以更好的训练特征提取器,模型构建的实现过程如下:在构建模型时,使用keras.layers的Conv1D、MaxPooling1D、UpSampling1D、Conv1DTranspose构建主干网络,主干网络以独热矩阵作为输入,第一层使用一维卷积层,第二层使用一维最大池化层,第三层使用一维上采样层,第四层使用一维反卷积层,第五层使用一维反卷积层;使用keras.layers的Dense构建预测网络,第一层和第二层均为全连接层,使用主干网络第二层的输出作为输入;其中编码器的操作定义为:;对于输入的独热矩阵X,首先进行1维卷积,并进行均匀填

充,保持时间维度大小不变,然后进行一维最大池化,压缩时间维度大小到原来的1/7;解码器的操作定义为:;对于编码器的输出Z,

首先进行上采样,将时间维度大小恢复到压缩前,然后进行两次一维反卷积,进行均匀填充,保持时间维度大小不变,输出重构矩阵 。

4.根据权利要求1所述的一种基于深度迁移学习的调控变异预测方法,其特征在于,使用混合损失进行误差反向传播来更新参数,通过多任务学习方法使卷积自编码器在学习特征压缩和重构能力的同时,又考虑该特征能否实现好的预测效果,更好的进行预训练,模型预训练的实现过程如下:在模型的训练过程中,混合损失函数定义为:

;其中 是重构损失,使用均方误差来衡量, 是预测误

差,使用交叉熵损失来衡量, 为权重系数,用于衡量重构误差和预测误差所占的比例;

所述的均方误差定义为:

;其中,n表示批量数,xij表示独热矩阵中某一位置的

元素值,x′ij表示重构矩阵中对应位置的元素值;

所述的交叉熵函数定义为:

;其中, 是第i个样本的

预测概率, 是第i个样本的标签;

每一轮训练时,通过Adam优化器进行混合误差反向传播,并根据20%的验证集上的准确率对k进行自适应调整,自适应调整的公式定义为:;其中, 为第i轮的权重系数, 为自定义更新系数, 为第i轮

中验证集上的准确率,设定初始的 为0.5, 为0.2。

5.根据权利要求1所述的一种基于深度迁移学习的调控变异预测方法,其特征在于,在模型迁移的过程中,冻结编码器的参数,针对目标数据训练全连接层,学习上下文特定非编码变异的高级特征,模型迁移的实现过程如下:在模型的迁移过程中,为了防止过拟合,不针对目标域对编码器的参数进行微调,保持编码器在源域学习的参数不变,只对新的全连接神经层进行训练;将目标域的特征矩阵输入到编码器,得到压缩表示的对应特征图,展平后将输入的特征送入两层全连接层,第一层有60个神经元,使用Sigmoid函数激活,并以0.5的概率进行Dropout操作,第二层有2个神经元,使用Softmax函数激活,对应目标域数据中的两个类别,保存训练好的模型。

6.根据权利要求1所述的一种基于深度迁移学习的调控变异预测方法,其特征在于,使用训练好的模型进行预测,模型预测的实现过程如下:将调控变异序列的独热编码矩阵输入到步骤4中训练好的模型进行预测,得到预测结果,两个输出结果分别代表阴性变异和阳性变异的概率。