欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2023111310049
申请人: 鲁东大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-03-30
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于深度对比学习的酶功能预测方法,包括蛋白酶序列的预处理、计算成对距离矩阵、三元组采样、基于对比学习的并行卷积神经网络的训练和预测五个过程,其具体步骤如下:步骤1、将蛋白酶序列输入蛋白质语言模型ESM‑2进行预处理,得到特征提取后的酶序列信息,并保存;

步骤2、计算步骤1中预处理后各类酶的聚类中心之间的欧氏距离,并存储为成对距离矩阵;

步骤3、基于步骤2中的成对距离矩阵为神经网络的训练选取三元组,即随机选取一个样本,称为锚,选取一个同类别的样本,称为正样本,选取一个不同类别的样本,称为负样本;

步骤4、把按步骤3中的策略选取的三元组输入基于对比学习的并行卷积神经网络,训练并保存酶功能预测模型;基于对比学习的并行卷积神经网络主要由三个并行的卷积神经网络、两个隐藏层和一个全连接层组成;其中每个卷积神经网络包括一维卷积层、批量归一化层和最大池化层,使用的卷积核大小为3,并在批量归一化操作后使用非线性激活函数ReLU,最大池化层的池化窗口大小和步长都为3,三个卷积神经网络的通道数分别为2、4、4;

三个卷积神经网络并行排列,在每个卷积神经网络后面设置一个隐藏层,使卷积神经网络输出的多维张量转化为一维张量;第二个隐藏层将前面三个隐藏层输出的一维张量进行拼接,并且对拼接后的输出进行随机丢弃Dropout操作,概率设置为0.15;最后一个全连接层‑4的节点数为128;训练时使用的优化器为Adam,初始学习率为5×10 ;使用的损失函数为三重对比损失函数L,其定义为公式 (1) :                           ⑴

其中 表示锚和正样本之间的欧氏距离, 表示锚和负样本之间的欧氏

距离, 是一个常量,设置为1,max含义为L的值取

 和0的最大值;对比神经网络的训练目标是最小化损

失函数L,使得网络模型映射后的同类样本向量之间的距离最小化,不同类样本向量之间的距离最大化;训练迭代次数为15000,每迭代100次重新计算步骤2中的成对距离矩阵,此时每个样本不仅经过预处理,还要经过网络模型的映射,每个样本由128维的向量表示,使用

128维的样本向量重复步骤2即可得到新的成对距离矩阵;最终保存训练好的网络模型;

步骤5、将需要预测的蛋白酶序列经过步骤1处理后输入步骤4中保存好的模型,以预测其类别。

2.根据权利要求1所述的一种基于深度对比学习的酶功能预测方法,步骤1的实现过程如下:将蛋白酶序列输入蛋白质语言模型ESM‑2,提取蛋白酶序列的特征信息;最终每个样本被转换为一个1280维的向量;保存每个预处理后的样本向量。

3.根据权利要求1所述的一种基于深度对比学习的酶功能预测方法,步骤2的实现过程如下:计算步骤1中预处理后各类酶的聚类中心之间的欧氏距离,并存储为成对距离矩阵;首先计算各个类的聚类中心,即为该类中所有样本的平均向量;其次计算各类平均向量相互之间的欧氏距离,并将它们存储为成对距离矩阵;成对距离矩阵的行数与列数均为类别总数量,矩阵中的每个数字表示其列数和行数所代表的两类之间的欧氏距离。

4.根据权利要求1所述的一种基于深度对比学习的酶功能预测方法,步骤3的实现过程如下:基于步骤2中的成对距离矩阵为神经网络的训练选取三元组,包括三个样本;首先随机选取一个样本,称为锚;其次从该类剩余样本中随机抽取一个样本,称为正样本;最后,在选择负样本时,根据其他类的聚类中心与锚所属类的聚类中心之间的欧氏距离,搜索成对距离矩阵,选择距离最近的类,在该类中随机抽取一个样本作为负样本;锚、正样本与负样本组成一个三元组。

5.根据权利要求1所述的一种基于深度对比学习的酶功能预测方法,步骤5的实现过程如下:将需要预测的蛋白酶序列经过步骤1处理后输入步骤4中保存好的模型,得到一个128‑4维的向量;计算该向量与各类酶的聚类中心之间的欧式距离,选择距离小于1×10 的类作为预测结果。