1.一种非平衡模式下基于集成学习的锌结合蛋白质作用位点预测方法,其特征在于,包括如下步骤:
步骤一:针对锌结合蛋白质作用位点的特点,对蛋白质源数据进行预处理;
步骤二:借助随机下采样技术对锌结合蛋白质作用位点的非平衡性进行平衡化处理,得到若干个子平衡数据集;
步骤三:分别在若干个子平衡数据集上,选取有可区分性的蛋白质生化特征,进行特征表示,组成特征向量;
步骤四:分别把特征向量作为基分类器支持向量机的输入,计算样本权重,再构建基于样本加权的概率神经网络模型,最后整合基分类模型支持向量机和基于样本加权的概率神经网络模型得到预测模型;
步骤五:采用步骤四得到预测模型对目标样品中的锌结合蛋白质作用位点进行识别。
2.根据权利要求1所述的非平衡模式下基于集成学习的锌结合蛋白质作用位点预测方法,其特征在于,步骤一中,所述预处理去除如下噪声数据:(1)去除同源性高于70%的肽链结构;
(2)剔除重复的,较短的蛋白质链以及错误和不可靠的数据;
(3)去除满足序列冗余小于20%的链。
3.根据权利要求1所述的非平衡模式下基于集成学习的锌结合蛋白质作用位点预测方法,其特征在于,步骤二中,所述平衡化处理为随机下采样技术为对大类样本进行随机下抽样,每次抽取与小类样本相同的数量,构成若干个子平衡数据集;所述大类样本为非结合的蛋白质作用位点,所述小类样本为锌结合的蛋白质作用位点。
4.根据权利要求1所述的非平衡模式下基于集成学习的锌结合蛋白质作用位点预测方法,其特征在于,步骤三中,所述可区分性的生化特征包括特征位置特异性得分矩阵、保守性得分和RW-GRMTP;对位置特异性得分矩阵进行归一化处理,并采用直方图和滑动窗口处理,得到一个20维的向量;把20维的保守性得分转换成一个值;对RW-GRMTP进行归一化处理,得到一个2维向量;最终形成一个23维的特征向量。
5.根据权利要求1所述的非平衡模式下基于集成学习的锌结合蛋白质作用位点预测方法,其特征在于,步骤四中,在若干子平衡数据集上分别训练基分类器SVM支持向量机,根据式(1)和式(2)分别计算预测误差率ej和分类模型的重要程序权重αj;
其中,全体数据集为D,D={(x1,y1),(x2,y2),…,(xn,yn)},xiεX,X代表分类问题的类域实例空间,yiε{1,-1},i=1,2,…n,n是样本数;wmi为权重,初始值设为1/n,即w1=(w11,w12,...,w1n),其中w1i=1/n;i=1,2,…,n;m=1,2;在k个子平衡数据集上分别使用基分类器SVM进行训练,得到k个分类预测结果Csvm_j(x),j=1,…,k。
6.根据权利要求5所述的非平衡模式下基于集成学习的锌结合蛋白质作用位点预测方法,其特征在于,步骤四中,计算当前样本权重并进行归一化处理,样本分类正确,减少相应的样本权值;若样本分类错误,增加相应的样本权值,计算公式如式(3):
7.根据权利要求6所述的非平衡模式下基于集成学习的锌结合蛋白质作用位点预测方法,其特征在于,步骤四中,构建基于样本加权的概率神经网络模型为对蛋白质特征数据进行加权,加权后的样本数据作为概率神经网络模型的输入,使用概率神经网络进行预测,该方法记作SWPNN,预测结果为SWPNN(x)。
8.根据权利要求6所述的非平衡模式下基于集成学习的锌结合蛋白质作用位点预测方法,其特征在于,步骤四中,整合基分类模型支持向量机和基于样本加权的概率神经网络模型得到预测模型SSWPNN,SSWPNN={SVM,SWPNN,kernelopt,spread,f},其中kernelopt,spread分别是SVM和SWPNN分类器的参数,f的定义如式(4)所示;同时根据错误率计算相应的权重βj;
其中,δ为阈值,Csvm_j(x)和SWPNN(x)分别是分类器SVM和SWPNN的分类结果,其值大于0,则预测为正类样本,小于0则预测为负类样本。若SVM(X)的值为正且小于阈值δ,且SWPNN(X)预测为反例时,最终集成预测结果判断为反例,其他情况下,以SVM(X)结果为最终判断的结果。
9.根据权利要求8所述的非平衡模式下基于集成学习的锌结合蛋白质作用位点预测方法,其特征在于,步骤五中,在整个数据集上分别利用集成模型SSWPNN进行预测,得出不同的分类结果,再对结果进行加权集成,最终识别出目标样品中锌结合蛋白质作用位点,如式(5)所示: