1.基于机器学习技术的SNAREs蛋白识别方法,其特征在于,利用最优模型对待识别蛋白进行SNAREs蛋白识别,所述的最优模型的确定过程包括以下步骤:S1、获取已知的待识别的SNAREs蛋白序列数据集,即原始数据;
获取的SNAREs蛋白序列数据集包含有正例数据和反例数据,正例的数据集为SNAREs蛋白序列文件,反例数据集为非SNAREs蛋白序列文件;
同时将数据集划分为交叉验证训练集和独立测试集;
S2、对数据集预处理,以字符串形式读取数据文件进行处理,判断序列数据的冗余度,使用CD‑HIT剔除冗余序列;
S3、利用NR数据库作为比对数据库,使用NCBI‑BLAST从预处理过的SNAREs蛋白FASTA文件中提取SNAREs蛋白序列的PSSM矩阵文件,每条蛋白序列提取出一个PSSM矩阵,构建SNAREs蛋白的PSSM矩阵集,统计所有PSSM矩阵文件的大小,将最小PSSM矩阵的维度作为特征维度,并依据特征维度从每个PSSM矩阵中提取数据作为蛋白质序列对应的特征数据,构建特征数据集;
S4、使用最大最小标准化方法对特征数据集进行归一化处理;
S5、针对特征归一化处理后的交叉验证训练集,依据正、反例蛋白质特征数据的数据比例判断特征数据集平衡状态;
特征归一化处理后的交叉验证训练集对应的数据集中正、反例蛋白质特征数据占比相差不超过10%时,数据集处于平衡状态,否则即为不平衡;当正例占据数据集的比例低于
20%时,判断数据集为严重不平衡,其他不平衡称为一般不平衡;
数据集处于平衡状态或严重不平衡时,直接进入步骤S7;否则,进入步骤S6;
S6、使用Smote‑ENN和Smote‑TOMEK采样算法对一般不平衡数据集进行处理,得到平衡的SNAREs蛋白特征数据集;
S7、将S6的SNAREs蛋白特征数据集或不经过S6处理的数据集记为蛋白质特征数据集;
采用SVM‑RFE‑CBR算法对蛋白质特征数据集进行特征排序,得到特征重要性得分的排序结果,以及SVM算法准确率随着排序后的特征的维度不断增加而不断变化的结果;依据排序后不同特征数目的准确率结果来剔除噪声特征,当准确率最高时认为当前最优特征维度,剔除蛋白质特征数据集排序靠后的特征,选择剔除噪声后的特征数据构建最优特征子集,记为交叉验证训练集的最优特征子集;
独立测试集对应的数据集进行相同的操作得到独立测试集的最优特征子集;
S8、采用多种分类器分别对交叉验证训练集的最优特征子集进行分类训练并构建模型,使用独立测试集的最优特征子集进行验证选出最优模型。
2.根据权利要求1所述的基于机器学习技术的SNAREs蛋白识别方法,其特征在于,步骤
1中,SNAREs蛋白序列数据包括用户构建的序列数据和公开的测序数据。
3.根据权利要求1或2所述的基于机器学习技术的SNAREs蛋白识别方法,其特征在于,步骤S2中,获取的蛋白质序列数据待处理之前,需对其进行格式判断、内容判断、冗余度判断:首先按照字符串形式读入蛋白序列数据文件,判断FASTA数据文件每行的开头是否为字符串“>”,与字符串“>”同一行的后续字符为蛋白质的名称,下一行为蛋白质序列数据;读取蛋白质序列数据的内容,蛋白质序列数据中只包含字母“A”、“C”、“D”、“E”、“F”、“G”、“H”、“I”、“K”、“L”、“M”、“N”、“P”、“Q”、“R”、“S”、“T”、“V”、“W”、“Y”,若序列数据中出现了这些字母以外的字符串,即为错误内容,将其删除;然后判断数据文件的冗余度,当序列数据冗余度超过30%时使用CD‑HIT对序列数据进行去冗余处理,剔除冗余序列,降低冗余度。
4.根据权利要求3所述的基于机器学习技术的SNAREs蛋白识别方法,其特征在于,步骤S3所述的特征数据为一维数据,依据特征维度从所有的PSSM矩阵文件中提取数据作为蛋白质序列特征数据时,每个PSSM矩阵文件提取一条特征维度对应的数据,把蛋白质序列特征数据组合成一维数据,即为特征数据。
5.根据权利要求4所述的基于机器学习技术的SNAREs蛋白识别方法,其特征在于,步骤S3所述的特征维度为400。
6.根据权利要求5所述的基于机器学习技术的SNAREs蛋白识别方法,其特征在于,步骤S7中采用的SVM‑RFE‑CBR算法对蛋白质特征集进行特征选择的过程包括以下步骤:S71、SVM‑RFE‑CBR算法采用高斯核的方法加快非线性排序计算,对于一组训练样本{xi,yi},i=1,2…,n,特征k排序标准的计算公式如下:d
其中,K(·,·)K为高斯核函数;是对应xi∈R为蛋白质特征数据,yi∈{‑1,1}是对应类别数据,表示是否为SNAREs蛋白;(‑k)表示特征k被移除, 是为了在保d
持α不变的情况下,去除特征k前后差值;R 是训练样本的集合,αi、αj是拉格朗日乘数,αi可以依据约束αi≥0和 得到;
排序后特征从1维的特征维度逐渐增加到完整特征数据的特征维度并分别使用SVM算法计算准确率,得到准确率随着排序后特征维度增加而不断变化的曲线;当准确率达到最高值时,当前特征维度视为最优特征维度;
S72、使用SVM‑RFE‑CBR算法对特征数据集进行排序,得到特征排序结果以及最优特征维度;
S73、根据特征排序结果从SNARES蛋白特征数据中选择最优特征子集。
7.根据权利要求6所述的基于机器学习技术的SNAREs蛋白识别方法,其特征在于,步骤S8中采用多种分类器采用交叉验证训练的方法构建最优模型,使用独立测试集测试模型性能包括以下步骤:
S81、利用交叉验证训练集的最优特征子集对随机森林、支持向量机、朴素贝叶斯以及K最邻近分类算法进行交叉验证训练,交叉验证训练中采用一些常用的评价指标来评估并构建模型;
S82、使用独立测试集的最优特征子集对每个模型进行测试,测试结果在独立测试集测试部分可见,对不同模型在独立测试中的结果进行比较,将评价指标最高值最多的模型作为性能最好的模型,即为最优模型。
8.基于机器学习技术的SNAREs蛋白识别系统,其特征在于,所述系统用于执行权利要求1至7之一所述的基于机器学习技术的SNAREs蛋白识别方法。
9.一种存储介质,其特征在于,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现如权利要求1至7之一所述的基于机器学习技术的SNAREs蛋白识别方法。
10.一种设备,其特征在于,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现如权利要求1至7之一所述的基于机器学习技术的SNAREs蛋白识别方法。