1.一种混合深度学习策略的蛋白质解链温度预测方法,其特征在于,包括如下步骤:步骤1、构建深度学习策略的蛋白质解链温度预测模型,所述预测模型包括序列特征提取模块、结构特征提取模块;
步骤2、输入待测上述蛋白质的一级序列至所述预测模型中;
步骤3、利用预测模型输出蛋白质解链温度以及蛋白质类别;
所述步骤1中构建预测模型包括如下步骤:
步骤1.1、获取训练数据集;
步骤1.2、特征提取;
步骤1.3、建立深度学习模型;
所述步骤1.2具体操作如下:
步骤1.21、利用蛋白语言预训练大模型ProtT5-XL-UniRef50和ESMFold模型进行特征提取:所述步骤1.21具体操作如下:
将蛋白质的一级序列输入模型ProtT5-XL-UniRef50中,输出数据为对应序列中第i个残基的特征表示向量Xi,且Xi的维度为1024;
采用ESMFold预测蛋白质的三维结构,得到序列中每个氨基酸残基中原子的三维坐标,然后计算残基之间原子的欧氏距离,若欧氏距离小于10Å,则认为这两个氨基酸是接触的,得到残基接触图谱矩阵,大小为,且L为序列长度;
其中:残基接触图谱矩阵中第i行第j列节点,表示序列中第i个残基和第j个残基存在接触关系,表示序列中第i个残基和第j个残基不存在接触关系;
步骤1.22、将蛋白质解链温度归一化;
所述步骤1.22具体操作如下:
将蛋白质解链温度归一化,采用公式(1)进行,其中,为第k个蛋白质的真实解链温度,是当前数据集中最高解链温度值,是最低解链温度;
三分类时,蛋白温度类别C按照公式(2)划分,用0、1、2分别代表数值化的温度类别;
二分类时,蛋白质解链温度≥55℃划分为嗜热蛋白质,否则为嗜温蛋白质;
(1)
(2)
然后将对应序列中第i个残基的特征表示向量Xi ,接触图谱矩阵分别输入至序列特征提取模块、结构特征提取模块中;
所述步骤1.3中的所述深度学习模型包括位置编码模块、序列特征提取模块、结构特征提取模块、输出模块;
所述位置编码模块中,采用正弦函数或余弦函数进行编码,编码如公式(3)、公式(4)所示;
(3)
(4)
其中,表示氨基酸在蛋白质序列中的位置,0≤<L,D表示特征维度D=1024,和表示当前位置残基的特征分量位置,0≤<D/2;
然后对输入到双通道网络模块的残基表示,附加上位置信息,具体操作如公式(5)(5)
所述序列特征提取模块由一层多头注意力网络、一层多尺度卷积神经网络、一层双向长短时记忆网络以及一层前向注意力网络组成,且序列特征提取模块的输入数据为公式(5)中的;
所述多头注意力网络采用8个注意力头;在多头注意力网络中,其输入各自经过一层前向神经网络,得到Qi、Ki、Vi,如公式(6),输入数据1024维,输出数据128维;
且一个注意力头headi计算如公式(7)、公式(8),其中dk值128;
公式(9)中“Concat”操作表示数据在最后一个维度执行合并操作,8个注意力头在最后一维进行拼接,再经过一层前向神经网络后再输出,输出维度1024,蛋白质序列长度不变;
(6)
(7)
(8)
(9)
所述多尺度卷积神经网络采用一维卷积、多个卷积核大小不同的卷积神经网络并行执行卷积操作;输入数据来自多头注意力网络的输出数据,其输入数据为1024维,输出数据为128维,卷积核大小分别取[3, 5, 7, 9];卷积操作默认激活函数ReLU;对多个卷积器的输出,做合并操作,如公式(11)所示:多尺度卷积神经网络的输出512维;
(10)
(11)
双向长短时记忆网络用于关注蛋白质的全局信息,捕捉蛋白质序列长范围依赖关系,由双向长短期记忆网络LSTM构成;单向LSTM模型公式化描述如(12)所示;
(13)
其中,σ是激活函数采用Sigmoid函数;⊙表示矩阵按位乘;为时刻t的网络输入;、、、和分别表示时刻t的输入门、遗忘门、输出门、内部记忆单元和输出;为上一时刻的输出;为上一时刻内部记忆单元的输出;其余为神经网络可学习参数;
单向LSTM网络输入1024维,输出256维;前向LSTM和后向LSTM数据汇聚时,在最低维度执行合并操作,如公式(13),输出512维;
所述前向注意力网络用于将二维矩阵转换为一维向量,为上一层网络的输出,表示序列中第t氨基酸残基;
通过一层前向神经网络如公式(14),经过公式得到残基t在序列中当前特征表示的注意力权重;对序列中所有残基特征表示,加权求和,如公式(16),实现二维特征表示向一维转换;这里的L取值1024;输入数据维度L*512,输出1*512维;
(14)
(15)
(16)
所述结构特征提取模块包括图注意力卷积网络、图扩散网络、图平均池化网络,其中:图注意力卷积网络中蛋白质的空间结构用图表示,节点即氨基酸残基,节点之间的连接边表示两个残基接触;节点表示用公式(5)的序列特征信息,即输入Input1;边信息用接触图谱矩阵描述,即输入Input2;
对网络节点接入前向网络层,如公式(17),输入维度1024,输出维度256;
对当前节点z的邻居节点p,作数据拼接,然后与可学习向量a相乘压缩到一个标量,a的维度256*2,1,并再经过LeakyReLU激活函数,如公式(19);
计算当前节点z和邻居节点p之间的注意力分数,计算公式用Softmax函数,如公式(20),其中表示节点z的邻居节点集合,再对节点z更新信息,如公式(21),激活函数用LeakyReLU函数,输出维度256;
(17)
(18)
(19)
(20)
(21)
图扩散网络通过扩散卷积,获取节点相邻节点的相邻节点信息;
原始蛋白质之间接触矩阵A,维度1024*1024,I是对角线为1的单位矩阵,维度同A,F是矩阵A的度矩阵,F-1是对F归一化后的矩阵,对矩阵A作公式(22-23)变换后成,即为图注意力卷积网络输出的节点信息,维度256;是迭代v次后的节点特征,是可学习的平衡参数,初始值0.9;W是参数矩阵;
通过公式(24)、公式(25)实现节点信息获取的扩散操作,该操作循环5遍,期待获取5个层面的邻接点信息;该网络模块输出节点维度还是256;
(22)
(23)
(24)
(25)
将图扩散网络的输出节点信息和原始蛋白质之间接触矩阵送回图注意力卷积网络单元中,再次迭代重复上述操作;同时还将节点信息送到图平均池化网络;对重复迭代的结果,也送到图平均池化网络;
图平均池化网络用于对图中节点信息采用图全局池化策略,序列中第i个残基的当前特征表示为Xi,对序列中所有特征取均值,如公式(26),通过图全局池化,将L*256矩阵压缩为1*256向量;
(26)
对图平均池化单元的两次输出结果进行特征拼接,以获得1*512维度的向量;
需对序列特征提取网络的输出F1和结构特征提取的网络输出F2作特征拼接,如公式(27),输出维度1*1024;
(27)
再连接两层前向神经网络,分别如公式(28)和公式(29),第一个前向神经网络激活函数用tanh,输出维度256;第二个用Sigmoid函数或Softmax函数,输出维度1或3;
(28)
(29)
所述输出模块中:
模型预测值和真实值之间的误差损失用公式(30)或公式(31)描述,(30)为解链温度预测损失,公式(31)为二分类或三分类预测损失;
(30)
((31)
上述公式中,N为训练样本数量,i是第i个蛋白质。
2.如权利要求1所述的一种混合深度学习策略的蛋白质解链温度预测方法,其特征在于,所述步骤1.1具体操作如下:训练和测试数据来自Meltome Atlas数据集,从MeltomeAtlas数据集中抽取序列长度在1024以下的蛋白质,并用CD-HIT软件去除序列相似度高于30%的序列,然后将这些序列以固定随机种子按8:1:1划分为训练集、验证集和测试集。