1.一种基于多视角学习的蛋白质溶剂可及性预测方法,其特征在于,所述预测方法包括以下步骤:
1)输入一条蛋白质残基个数为L的待进行蛋白质溶剂可及性预测的蛋白质序列信息,记作S;
X X
2)对任意给定的蛋白质残基个数为L的蛋白质序列信息,记作S;
X
3)对蛋白质序列S ,使用HHBlits工具生成对应的多序列联配信息,记作其中, 表示MSA中的第n条序列联配信息,N为MSA中的序列联配信息总X
数目,每条序列联配信息均含有L个元素,每个元素均属于元素集合R={R1,…,Rr,…,R21},集合R是由二十种常见氨基酸和补位空格元素组成的;
4)对给定的多序列联配信息MSA,生成对应的位置特异性频率矩阵,记作其中 表示 中的第l个元素,当 与Rr为相同元素类型时, 否则
X
5)对给定的蛋白质序列S ,使用PSI‑BLAST工具生成对应的位置特异性得分矩阵,记作PSSM;
X
6)对给定的蛋白质序列S,使用PSIPRED工具生成对应的二级结构信息,记作PSS;
7)从PDB库中收集已注释三级结构信息的所有蛋白质,然后根据所有蛋白质的三级结构信息,使用DSSP工具生成对应的蛋白质溶剂可及性标签,记作Dataset={Si,Yi},其中,Si表示数据集Dataset中的第i条蛋白质,Yi表示数据集Dataset中Si对应的标签信息,i=1,
2,…,N,N是数据集Dataset中蛋白质序列的总数;
8)搭建深度多视角特征学习神经网络框架,该神经网络框架共有4个管道组成,分别记作Ⅰ,Ⅱ,Ⅲ,和Ⅳ;
9)管道Ⅰ和Ⅱ都是由两个两层的双向长短时记忆循环神经网络BiLSTM、三个线性层FC、两层注意力机制模块SENet组成,分别用来提取位置特异性频率矩阵和位置特异性得分矩阵中的进化信息,该管道对应的输出分别记作①和②;
10)管道Ⅲ由两个两层的双向长短时记忆循环神经网络BiLSTM、三个线性层FC,两层注意力机制模块SENet组成,用来提取二级结构信息,该管道对应的输出记作③;
11)管道Ⅳ由三个线性层FC,两层注意力机制模块SENet组成,该管道对应的输出记作④;
12)根据步骤3)至6),生成数据集Dataset中所有Si的特征信息,分别记作其中,i=1,2,……,N,N是蛋白质序列的总数,与对应标签Yi组成样本集合
13)使用步骤8)至11),搭建的深度多视角特征学习神经网络框架在S上学习预测模型,记作DMVFL;
14)在训练DMVFL过程中,使用均方差函数计算步骤9)至11)的输出①,②,③,和④分别和标签的损失,记作 其中,T=4,y是标签,yt是溶剂可及性的预测值;
15)将待测蛋白质S,经过步骤3)‑6)生成对应的特征信息,将其特征信息输入到训练好的模型DMVFL中,得到蛋白质S的溶剂可及性信息。