欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2023110758058
申请人: 鲁东大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-03-30
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于深度学习的DNA序列功能预测方法,包括如下步骤:

步骤1、DNA序列数据转换:DNA的序列数据由ACGT 4个字母组成,需要使用One Hot编码方式将DNA序列数据转换成数字形式,才能输入到深层架构中进行特征提取;

步骤2、卷积神经网络局部特征提取:使用密集卷积网络的多个密集块对DNA序列的局部特征进行提取,并将提取的特征传给下一层;

步骤3、双向长短期记忆网络长序列特征提取:使用双向长短期记忆网络基于密集块提取的特征,进一步提取DNA序列的长期依赖信息,并将提取的特征传给下一层;

步骤4、全连接层建立特征映射:使用全连接层基于双向长短期记忆网络提取的特征建立数据与其对应标签之间的映射关系;

步骤5、训练深层架构:使用监督学习方法基于随机梯度下降算法来训练整个深层架构,将深层架构的特征提取能力和分类能力有效结合起来,互相促进;

步骤6、模型预测:使用步骤5中保存好的模型来预测输入的DNA序列数据功能。

2.根据权利要求1所述的一种基于深度学习的DNA序列功能预测方法,步骤1的实现过程如下:

在DNA序列数据转换模块中,处理DNA序列所使用的窗口长度为1000,步长为200;每个窗口中1000个核苷酸对应919个核染色质特征;针对每个核染色质特征,若发生突变,则被标注为1;否则,被标注为0;每个窗口中1000个核苷酸用一个1000×4的二维矩阵表示,矩阵的每一列对应A、C、G和T,这4个字母分别用[1, 0, 0, 0]、[0, 1, 0, 0]、[0, 0, 1, 0]和[0, 0, 0, 1]表示。

3.根据权利要求1所述的一种基于深度学习的DNA序列功能预测方法,步骤2的实现过程如下:

在卷积神经网络局部特征提取模块中,使用4个不同长度的密集块依次处理DNA序列数据,4个密集块中密集层的个数分别是18、18、18和12;第一个密集块的初始特征数为1000,初始通道数为4,对应输入数据中1000×4的二维矩阵;每个密集层进行2次一维批量归一化、ReLU激活和一维卷积操作,最后以0.07的概率进行Dropout操作;密集块中每个密集层都输出32个通道,从第二个密集层开始,接收前面所有密集层的输出数据和该密集块的输入数据作为输入;因此,后面的密集层都会比其前一个密集层增加32通道,但是处理后的特征数保持不变;为了防止多个密集块叠加后输出的通道数太多,在密集块之间使用一维卷积层将上一个密集块输出的通道数减半,并且使用一维平均池化层将特征数变为原来的1/

4,然后送入下一个密集块;最后,使用一维批量归一化层将4个密集块提取的特征归一化后输出,输出的特征数是15,通道数是888,对应一个15×888的二维矩阵。

4.根据权利要求1所述的一种基于深度学习的DNA序列功能预测方法,步骤3的实现过程如下:

在双向长短期记忆网络长序列特征提取模块中,使用一层双向长短期记忆网络基于卷积神经网络局部特征提取模块输出的特征继续处理;网络输入的特征数是888,输出的特征数也是888;由于使用的是双向长短期记忆网络,两个方向各输出888个特征,所以最终输出的特征数是1776;最后,以0.5的概率进行Dropout操作后输出;卷积神经网络特征提取模块中输出的15×888的二维矩阵中的每一行都经过双向长短期记忆网络和Dropout处理,所以最后输出的所有数据的特征数是15×1776=26640。

5.根据权利要求1所述的一种基于深度学习的DNA序列功能预测方法,步骤4的实现过程如下:

在全连接层建立特征映射模块中,使用一层线性层接收双向长短期记忆网络长序列特征提取模块输出的26640个特征,并输出925个特征;使用ReLU函数激活后送入下一个线性层,线性层的输出特征数是919,对应DNA序列数据的919个标签;最后,使用Sigmoid函数激活。

6.根据权利要求1所述的一种基于深度学习的DNA序列功能预测方法,步骤5的实现过程如下:

模型搭建好后,使用监督学习方法基于随机梯度下降算法来训练整个深层架构,学习‑6

率为0.08,权重衰减系数为1×10 ,动量系数为0.9。

7.根据权利要求1所述的一种基于深度学习的DNA序列功能预测方法,步骤6的实现过程如下:

使用训练好的模型来预测输入的DNA序列数据功能;DNA序列数据需要使用步骤1中的预处理方法对长度为1000的核苷酸加窗,步长为200;转换后得到N个1000×4的二维矩阵后,输入到训练好的模型进行预测;每个1000×4的二维矩阵输入模型运算后得到919个核染色质的预测结果,输入的DNA序列数据的最终预测结果为N×919的二维矩阵。