1.一种基于混合深度学习策略的BCE预测方法,其特征在于,包括如下步骤:步骤1、构建BCE预测模型;
步骤2、向所述BCE预测模型输入蛋白序列;
步骤3、利用预测模型输出该蛋白序列是否为BCE的结果。
2.如权利要求1所述的一种基于混合深度学习策略的BCE预测方法,其特征在于,所述步骤1中的BCE预测模型包括数据库、特征提取模块、特征处理模块以及前向神经网络模块;
其中:
数据库用于训练数据集的获取;
特征提取模块用于对数据进行特征提取并获取四组特征;
特征处理模块用于对提取的特征进行处理;
前向神经网络模块用于合并经处理后的多个特征并输出预测值。
3.如权利要求1所述的一种基于混合深度学习策略的BCE预测方法,其特征在于,所述数据库中的训练数据来自IEDB数据库和Bcipep数据库;数据库中的验证数据同样选自EDB数据库和Bcipep数据库。
4.如权利要求1所述的一种基于混合深度学习策略的BCE预测方法,其特征在于,所述特征提取模块用于ProtT5表示特征、ESM-2表示特征、DSSP特征以及序列特征,序列特征由序列残基正交编码、AAT、AAP、AAC进行拼接;
其中:
AAP为氨基酸抗原对、AAT为氨基酸三聚体、AAC为氨基酸组成;
ProtT5表示特征利用蛋白语言大模型ProtT5提取;具体模型为ProtT5-XL-UniRef50,该模型的输入为蛋白质的一级序列,输出为对应序列中第i个残基Ri的特征表示向量Xi,Xi的维度1024;
ESM-2表示特征利用蛋白语言预训练大模型ESM-2提取;具体模型为Esm2_t33_650M_UR50D,该模型的输入为蛋白质的一级序列,输出为对应序列中第i个残基Ri的特征表示向量Xi,Xi的维度1280;
DSSP特征利用蛋白质结构预测大模型ESMFold提取;使用ESMFold预测蛋白质的三维结构,使用DSSP软件解析蛋白质文件,得到蛋白质八状态的二级结构信息、(φ,ψ)二面角信息、溶剂可及表面积信息;二级结构用8维的独热正交编码数据表示;一个二面角用一对正弦余弦函数表示,如公式(1),(φ,ψ)二面角用4维数据表示;溶剂可及表面积用最大-最小归一化,如公式(2),残基溶剂可及表面积最小值为0;上述数据共13维;
y1=sin(θ),y2=cos(θ)(1)
序列特征采用如下方法提取;
鉴于上述的独热正交向量编码中非零数据过少:
首先利用公式(3)将自编码器将稀疏编码映射到稠密编码;取编码器中参数W为对应的新编码向量,数据维度20维;
AAP特征表示数据集中,AAP表位序列中相邻的两个氨基酸成对出现的频率与非表位序列中该AAP的出现频率的比率,计算如公式(4),按照公式归一化到[-1,1];氨基酸抗原对特征用AAP特征值、AAP中最大值、AAP中最小值和AAP平均值四个值表示,共4维;
其中和计算方式如公式(5)和(6);
其中,是表位序列中一对氨基酸出现的次数,为表位序列中所有氨基酸对的数量;
其中,是非表位序列中一对氨基酸对出现的次数,是非表位序列中所有氨基酸对的数量;
AAT特征表示数据集中表位序列中,连续三个氨基酸残基的出现频率与非表位序列中该三聚体的出现频率的比率,计算方式和归一化方式同AAP特征,AAT特征表示包括该残基的AAT特征值、最大值、最小值和平均值4组值,共4维;
AAC特征,表示数据集中每条蛋白质序列中每个氨基酸的相对比例,计算方式如公式(7);
其中Ri是该序列中i类型氨基酸的数量,N是序列长度,AAC特征1维;
考虑到深度学习模型训练时数据批次输入方便,根据所有测试集中的最长序列将所有序列长度对齐到71,小于71的补零;
残基特征ProtT5为71*1024,ESM-2为71*1280,DSSP为71*13,残基编码、AAT、AAP、AAC拼接起来共71*29。
5.如权利要求1所述的一种基于混合深度学习策略的BCE预测方法,其特征在于,所述特征处理模块包括:结构特征处理模块、ESM-2大模型特征处理模块、ProtT5大模型特征处理模块、序列特征处理模块。
6.如权利要求1所述的一种基于混合深度学习策略的BCE预测方法,其特征在于,所述结构特征处理模块中:ESMFold预测得到的三维结构,用DSSP软件解析出13维结构特征;单条序列71*13特征矩阵,用全尺寸二维卷积神经网络特征提取,将二维矩阵转成一维向量;卷积核大小(71,13),激活函数ReLU,输出256维;计算过程如公式(8)。
F1=ReLU(Conv(W*x1:71+b)) (8)。
7.如权利要求1所述的一种基于混合深度学习策略的BCE预测方法,其特征在于,所述ESM-2大模型输出的残基表示特征1280维,输入到两层双向LSTM网络中,然后用一层前向注意力网络将二维映射到一维向量;
首先用双向LSTM网络关注蛋白质的全局信息,捕捉蛋白质序列长范围依赖关系;单向LSTM模型公式化描述如(9)所示;
其中,σ是激活函数一般用Sigmoid函数;⊙表示矩阵按位乘;xt为时刻t的网络输入;it、ft、ot、ct和ht分别表示时刻t的输入门、遗忘门、输出门、内部记忆单元和输出;ht-1为上一时刻的输出;ct-1为上一时刻内部记忆单元的输出;其余为神经网络可学习参数;
第一层LSTM网络输入1280维,单向输出128维,前向LSTM和后向LSTM数据汇聚时,在最低维度执行合并操作,如公式(10),输出256维;
第二层LSTM网络输入256,单向输出128维,前后向汇聚时,也是在最低维度执行合并操作,输出256维;
前向注意力网络主要用来将二维矩阵转换为一维向量;ht′为双向LSTM的输出,表示当前序列中第t氨基酸残基;通过一层前向神经网络如公式(11),经过公式(12)得到残基t在序列中当前特征表示的注意力权重;对序列中所有残基特征表示,加权求和,如公式(13),实现二维特征表示向一维转换,前向注意力网络输入数据维度71*256,输出1*256维;
et=ht′Wt (11)
。
8.如权利要求1所述的一种基于混合深度学习策略的BCE预测方法,其特征在于,所述ProtT5表示特征提取模块中,包括两层双向LSTM网络和一层前向注意力网络,模块输入1024维,模块输出F3也是256维,也将二维特征映射到一维向量。
9.如权利要求1所述的一种基于混合深度学习策略的BCE预测方法,其特征在于,所述序列特征提取模块中针对序列的编码特征、AAP、AAT和AAC特征,同样全尺寸卷积神经网络做特征提取;每条序列输入为尺寸为71*29,卷积核大小(71,29),激活函数ReLU,输出特征F4为256维。
10.如权利要求1所述的一种基于混合深度学习策略的BCE预测方法,其特征在于,所述前向神经网络模块对上述四个特征处理模块的输出一维向量,做数据合并操作,每个模块的输出维度256,合并后维度1024,如公式(14)所示;
F=concat(F1,F2,F3,F4) (14)
包括两层前向神经网络,分别如公式(15)和(16),第一个前向神经网络激活函数用tanh,输出维度512;第二个用Sigmoid函数如公式(17),输出维度1,输出结果0或1,其中:0代表非抗原表位、1代表抗原表位;
F′=tanh(W*F+b) (15)
模型预测值和真实值之间的误差损失用二元交叉熵损失函数,如公式(18)描述;