1.一种基于排挤策略的多模态蛋白质结构预测方法,其特征在于:所述预测方法包括以下步骤:
1)给定输入序列信息,以及蛋白质力场模型,即能量函数Rosetta Score3;
g
2)初始化:迭代Rosetta协议第一、二阶段,产生具有NP个构象的种群P ,记为其中 为第g代种群的第i个构象,设置最大迭代次数Gmax并初始化迭代次数g=0;
g g
3)通过差分进化算法的交叉、变异操作生成种群P 的试验构象种群U ,记为其中 为第g代种群的第i个试验构象,置i=
1,过程如下:
g g
3.1)从种群P中选定目标个体 并从种群P 中随机选择两个互异且不同于 的个体
3.2)在[0,L‑9]内生成均匀随机整数rand1、rand2和rand3,其中L表示氨基酸序列长度;
3.3)将 的第rand1至rand1+8号残基的二面角值替换成 对应残基号的二面角值,将的第rand2至rand2+8号残基的二面角值替换成 对应残基号的二面角值,生成变异个体 再将 的第rand3至rand3+8号残基的二面角值替换成变异个体 对应残基号的二面角值,生成试验个体
g
3.4)i=i+1,循环步骤3.1)‑3.4)直至生成当前种群的试验个体种群U;
g
4)为种群P中的每一个构象 生成其对应的存档集合 置i=1,过程如下:g g
4.1)对U中的每一个试验构象 置t=1,计算 与P所有构象的均方根偏差RMSD,若其中最小的RMSD值是由 与 产生的,则将 放入存档集合 中;
4.2)t=t+1,重复步骤4.1),直至t=NP,记此时 中的构象数为n;
4.3)将 同样放入 中,则此时 中的构象数为n+1;
4.4)i=i+1,循环步骤4.1)‑4.4)直至为每一个构象 均生成其对应的g
5)对每一个 其聚类中心 和聚类半径ri生成如下:其中 为存档集合 中的第j个构象, 为 的构象能量值, 为与 之间的RMSD值;
6)排挤操作:用 取代 进入下一代种群中,即生成 并且g+1 g
对应的ri 等于ri;
7)聚类操作:生成当前第g+1代种群的模态构象集合 其中有对应的聚类半径 模态构象数为K,置i=1,过程如下:g+1 g+1
7.1)M 初始化为只有一个构象的集合,该构象为种群P 中最好的构象;
g+1 g+1
7.2)将 与M 中的所有构象相比,若满足如下公式,将 放入M ,i=1,2,...,NP;
其中 为 和 之间的RMSD值;
7.3)i=i+1,循环步骤7.2)‑7.3)直至为第g+1代种群找到所有的模态构象;
8)判断是否满足终止条件,终止条件为迭代次数g达到预设最大迭代次数Gmax,若满足g+1
则输出结果为 中能量值最低的构象,否则g=g+1清空M 并且返回步骤3)。