1.一种基于深度稀疏表示网络的DNA结合蛋白识别方法,其特征在于:包括以下具体步骤:S1,获取DNA结合蛋白序列数据集,所述DNA结合蛋白序列数据集分为训练集和测试集;
S2,采用PSL‑BLAST软件计算所述DNA结合蛋白序列数据集内所有序列的特异性打分矩阵;
S3,将所有的所述特异性打分矩阵分别填充或裁剪成相同尺寸的新特异性打分矩阵;S4,采用深度稀疏表示网络构建并训练DNA结合蛋白识别分类器模型;S5,将步骤S3中的所述新特异性打分矩阵输入所述DNA结合蛋白识别分类器模型内,完成对所述DNA结合蛋白序列的识别。
2.根据权利要求1所述的基于深度稀疏表示网络的DNA结合蛋白识别方法,其特征在于:步骤S4具体包括:S41,将步骤S1中的所述训练集和所述测试集进行行拼接得到拼接数据集 其中Xtrain为所述训练集,所述训练集 Xtest为所述测试集,所述测试集 其中,d0表示所述训练集和所述测试集的维度,n表示训练集样本个数,m表示测试集样本个数;S42,将所述拼接数据集X输入包含编码器、解码器和稀疏表示层的深度稀疏表示网络模型中,所述拼接数据集X经过所述编码器输出编码Z,Z=[Ztrain,Ztest],其中,Ztrain表示训练集编码,Ztest表示测试集编码,所述编码Z经过所述稀疏表示层得到 其中 即可定义In是单位矩阵,0n×m,0m均为0矩阵,A为稀疏表示矩阵,通过所述深度稀疏表示网络的目标函数 其中, 是所述解码器的输出, 表示训练集解码, 表示测试集解码,所述λ0=0.1和λ1=0.1,λ0和λ1均为正则化参数,即可计算出所述稀疏表示矩阵A;S43,取所述测试集Xtest中任意一个测试样本 其对应的测试样本编码为 其对应的在所述稀疏表示矩阵A中的相关稀疏编码i i列为α,定义新向量 中的非0元素是和α相关的k类元素,任意一个测试样本的分类公式为 完成对所述DNA结合蛋白识别分类器模型的构建和训练。
3.根据权利要求1所述的基于深度稀疏表示网络的DNA结合蛋白识别方法,其特征在于:步骤S2中,采用PSI‑BLAST软件生成特异性打分矩阵矩阵,生成的命令为BLAST+options:‑num_iterations 3‑db nr‑inclusion_ethresh0.001。
4.根据权利要求1所述的基于深度稀疏表示网络的DNA结合蛋白识别方法,其特征在于 :步 骤 S 2 中 ,所 述 特 异性 打 分 矩 阵 矩 阵 为 P SS M ,具 体 公 式 为 诶其中,每个元素表示特定位置特定序列被取代的可能性,L为蛋白质的序列长度。
5.根据权利要求4所述的基于深度稀疏表示网络的DNA结合蛋白识别方法,其特征在于:所述步骤S3具体为:当所述序列的PSSM行数大于70时,对底部多出来的行裁剪掉;当所述序列的PSSM行数小于70时,对底部缺少的的行用0补充。