1.一种基于多模态融合的化合物血脑屏障渗透性预测方法,其特征在于考虑类别样本数量不均衡对预测结果的影响,并运用特征融合网络提升预测血脑屏障渗透性的准确性,该方法包括以下步骤:S1:将每一个采集到的化合物表示为一个二元组,其中为所述化合物的SMILES表达式,为的血脑屏障渗透性标签;对所有采集到的化合物进行数据预处理,得到增强数据集;
S2:对于任意化合物,生成分子三维结构特征3DF、分子文本特征MNF、分子描述符特征MDF、分子图特征MGF;对3DF、MNF、MDF和MGF进行归一化处理,得到归一化后的分子三维结构特征P-3DF、归一化后的文本特征P-MNF、归一化后的分子描述符特征P-MDF、归一化后的分子图特征P-MGF;
其中归一化后的分子三维结构特征P-3DF包括以下信息:(1)化合物中任意两个原子之间的归一化欧几里得距离,的计算公式如下:(1)
其中,、表示化合物中任意两个原子;是的三维坐标,是的三维坐标;表示归一化操作;
(2)化合物中任意原子的归一化初始三维特征向量,的计算公式如下:(2)
其中,是一个One-Hot编码向量,表示的原子类型;为向量拼接操作;是的三维坐标向量,表示在三维空间中的位置;
(3)化合物中任意边的归一化初始边特征向量,的计算公式如下:(3)
其中是一个One-Hot编码向量,表示原子和原子之间的化学键,其中,是二元值,表示第类化学键,且;表示表示所有的化学键类型数目;表示和之间的欧几里得距离;
(4)化合物中的归一化角度特征向量,的计算过程如下:(4)
其中,向量表示从原子到原子的方向和距离,向量 表示从到原子的方向和距离;函数用于计算两向量和的夹角余弦值所对应的角度;是边和形成的归一化角度特征向量;
S3:构建特征融合网络BBBNet,用于构造多模态融合特征向量数据集;
其中,构建特征融合网络BBBNet的具体步骤包括:S31:构建分子转换模块MolTransNet,将每个化合物的P-MGF输入至MolTransNet,生成所述化合物的分子图特征向量;
S32:构建分子三维编码器模块GEMM,将每个化合物的P-3DF输入至GEMM,生成所述化合物的分子三维特征向量;
S33:将每个化合物的P-MNF输入至Transformer模块,生成所述化合物的文本特征向量;
S34:将每一个化合物的P-MDF转化为分子描述符向量,将所述化合物的、、、一起输入至注意力特征融合模块Afusion进行特征融合,得到所述化合物的特征融合向量;根据所述化合物的SMILES表达式、血脑屏障渗透性标签和,构建一个三元组;将中所有化合物对应的构成一个多模态融合特征向量数据集,其中为中的三元组个数;
S4:将划分为训练集和测试集,将所述训练集输入科尔莫哥洛夫-阿诺德模型KAN进行模型训练;训练完成后,使用测试集对训练好的KAN模型进行性能评估;
S5:使用训练好的KAN模型对化合物的血脑屏障渗透性进行预测。
2.根据权利要求1所述的基于多模态融合的化合物血脑屏障渗透性预测方法,其特征在于,所述S1的对数据预处理包括:S11:运用重采样技术对进行数据平衡操作,具体步骤如下:对于任意少数类样本二元组,对使用ADASYN方法生成新的SMILES表达式,随后构造二元组表示新的少数类样本并加入到中;
S12:对BBBD中的每一个化合物应用SMILES增强操作:(1)对任意具有非对称性的结构化合物,将通过围绕中心原子、且沿垂直于分子平面的轴进行旋转,得到旋转后的SMILES表达式,构造二元组,并且将加入,其中旋转操作表示如下:其中,表示对进行旋转操作的函数,为随机选取的旋转角度;
(2)对含有两个以上闭合环的化合物,将化合物中的所有闭合环进行如下调整:将闭合环上所有原子的连接顺序进行乱序重排,根据调整后的原子连接顺序生成 SMILES表达式,构造二元组,并且将加入;
(3)对含有双键的化合物,随机选择一个双键,交换所述双键的立体标记;如果原来的立体标记是顺式,将调整为反式;如果原来的立体标记是反式,则调整为顺式;调整后的生成SMILES表达式,构造二元组,并且将加入。
3.根据权利要求1所述的基于多模态融合的化合物血脑屏障渗透性预测方法,其特征在于,所述的S31中的构建分子转换模块MolTransNet的具体过程包括:S311:对于化合物中的任意原子,求解的一跳邻居节点集合和二跳邻居节点集合;然后计算的原子特征向量,由以下迭代方程组(5)~(14)计算得出:(5)
(6)
(7)
(8)
(9)
(10)
(11)
(12)
(13)
(14)
其中,是的一跳邻居节点;是的一跳邻居节点,其中表示的一跳邻居节点集合;是的二跳邻居节点,其中表示的二跳邻居节点集合;、、是One-Hot编码向量,分别表示、、的原子类型;、、是One-Hot编码向量,分别表示、、的度数;、、是One-Hot编码向量,分别表示与、、连接的氢原子数量;是一个维度为的原子特征向量;是对进行轮迭代后得到的原子特征向量;是一个维度为的原子特征向量;是一个维度为的原子特征向量;是对进行轮迭代后得到的原子特征向量;是对进行轮迭代后得到的原子特征向量;、、均为大小为的权重矩阵;是激活函数ReLU;表示点乘运算,用于计算两个向量或矩阵的内积;
是的二跳邻居节点;是的一跳邻居节点,其中表示的一跳邻居节点集合;是的二跳邻居节点,其中表示的二跳邻居节点集合;、、是One-Hot编码向量,分别表示、、的原子类型;、、是One-Hot编码向量,分别表示、、的度数;、、是One-Hot编码向量,分别表示与、、连接的氢原子数量;是一个维度为的向量;是一个维度为的原子特征向量;是一个维度为的向量;是对进行轮迭代后得到的原子特征向量;是对进行轮迭代后得到的原子特征向量;是对进行轮迭代后得到的原子特征向量;
是一个维度为的原子特征向量;是一个One-Hot编码向量,表示的度数;是一个One-Hot编码向量,表示与连接的氢原子数量;是对进行轮迭代后得到的原子特征向量;
S312:基于,计算化合物内部原子之间相关性的注意力特征,具体计算公式如下:(15)
其中,是随机初始化生成的权重矩阵,大小为;表示化合物中除之外的任意原子;查询矩阵表示的原子特征向量在查询向量空间中的映射;键矩阵表示在键向量空间中的映射;值矩阵表示在值空间中的映射,用于存储;是维度大小为的注意力权重矩阵,表示和的原子特征向量之间的关系;
S313:使用和计算变换特征,具体计算公式如下:(16)
(17)
其中,表示归一化操作;表示残差连接操作; 是中间特征;是前馈神经网络,用于对进行非线性变换;
S314:将化合物所有原子的进行平均池化操作,得到化合物的分子图特征向量,的计算公式如下:(18)
其中,表示化合物中原子的数量。
4.根据权利要求3所述的基于多模态融合的化合物血脑屏障渗透性预测方法,其特征在于,所述S311中生成化合物中任意一个原子的一跳邻居节点集合和二跳邻居节点集合的具体过程包括:S3111:查找所述化合物中所有与原子直接通过化学键连接的原子,将上述所有原子构成;
S3112:对于中的每个原子,查找直接通过化学键与连接的所有原子,如果或者未与直接连接,则将加入。
5.根据权利要求1所述的基于多模态融合的化合物血脑屏障渗透性预测方法,其特征在于,所述S32中构建分子三维编码器模块GEMM的具体过程包括:S321:对于化合物中的任意原子,从化合物的P-3DF中提取的归一化初始三维特征向量和边的归一化初始边特征向量,其中是的任意一个邻接点;
S322:计算的三维特征向量,由以下迭代方程组(19)~(22)计算得出:(19)
(20)
(21)
(22)
其中,表示和之间的欧几里得距离;是一个One-Hot编码向量,表示和之间的化学键;是对进行轮迭代后得到的边特征向量;是的一跳邻居节点数目;表示的一跳邻居节点集合;表示边和形成的归一化角度特征向量;是的一跳邻居节点;
是一个One-Hot编码向量,表示的原子类型;是的三维坐标向量,表示在三维空间中的位置是对进行轮迭代后的三维特征向量;是对进行轮迭代后的边特征向量;是对进行轮迭代后的三维特征向量;
是大小为的角度加权矩阵; 是大小为的节点加权矩阵;是向量级加法操作,用于对两个向量在对应位置上的元素进行相加;是对进行轮迭代后的三维特征向量;
S323:通过操作,将化合物中所有原子的三维特征融合为分子三维向量,的计算公式如下:(23)。
6.根据权利要求1所述的基于多模态融合的化合物血脑屏障渗透性预测方法,其特征在于,所述S33中将每个化合物的P-MNF输入至Transformer模块,生成所述化合物的文本特征向量的具体过程包括:S331:对于化合物中的任意原子,使用n-gram模型构建的词袋向量,具体构建公式如下:(24)
其中, 表示第个n-gram在SMILES表达式中的出现频次,是n-grams词汇表的大小;
S332:生成的位置编码向量,利用生成的位置增强词袋向量,具体生成公式如下:(25)
(26)
(27)
(28)
其中,表示在SMILES表达式中的索引;是的维度索引,当是偶数时,使用生成;当是奇数时,使用生成;
S333:使用计算文本注意力特征,具体计算公式如下:(29)
其中,是随机初始化生成的文本权重矩阵,大小为;表示化合物中除之外的任意原子;文本查询矩阵表示的位置增强词袋向量在查询向量空间中的映射;文本键矩阵表示在键向量空间中的映射;文本值矩阵表示在值空间中的映射,用于存储;和还有用于计算原子和原子之间的文本特征相关性;是维度大小为的文本注意力权重矩阵,表示和的位置增强词袋向量之间的关系;表示化合物内部原子之间相关性的文本注意力特征;
S334:使用和计算文本变换特征,具体计算公式如下:(30)
(31)
其中,表示归一化操作;是文本中间特征;是前馈神经网络,用于对进行非线性变换;
S335:将化合物所有原子的进行操作,得到化合物的分子文本特征向量,的计算公式如下:(32)。
7.根据权利要求1所述的基于多模态融合的化合物血脑屏障渗透性预测方法,其特征在于,所述S34中注意力特征融合模块Afusion进行特征融合的具体过程包括:S341:将、、、进行融合,得到融合了分子图特征、分子三维特征、分子文本特征和分子描述符特征的向量,的具体计算公式如下:(33)
S342:使用计算分子查询向量、分子键向量、分子值向量,具体公式如下:(34)
(35)
(36)
其中,是大小为的模态查询权重矩阵;表示在查询向量空间中的映射;是大小为的模态键权重矩阵;表示在键向量空间中的映射;是大小为的模态键权重矩阵;表示在值向量空间中的映射;和用于计算中不同特征之间的相似性;
S343:使用和计算自注意力权重,的具体生成公式如下:(37)
其中,是自注意力分数;表示矩阵的转置操作;是缩放因子,用于防止数值过大;是归一化函数,用于将转换为概率分布;表示自注意力权重;
S344:使用和计算得到所述化合物的特征融合向量,具体计算公式如下:(38)。
8.根据权利要求1所述的基于多模态融合的化合物血脑屏障渗透性预测方法,其特征在于,所述S4中的将划分为训练集和测试集,将训练集输入科尔莫哥洛夫-阿诺德模型KAN;训练完成后,使用测试集对训练好的KAN模型进行性能评估;对模型进行训练和性能评估的具体步骤包括:S41:将划分为训练集和测试集,其中用于训练KAN模型,用于评估KAN模型的性能表现;
S42:将任意输入至KAN模型进行训练,得到第个化合物的血脑屏障渗透性标签预测值,具体计算公式如下:(39)
(40)
(41)
其中,是第个B样条基函数;是第个B样条叠加函数,由个求和得到;是第个KAN映射层的偏置项;是线性函数,表示第个KAN映射层;是一个随机的初始权重, 表示个KAN映射层的初始权重;是对进行轮迭代后得到的权重,表示第个KAN映射层的权重系数;为的数量;是中三元组数量;的取值范围为{BBB-, BBB+};
S43:配置交叉熵损失函数,具体公式如下:
(42)
其中,表示第个化合物的交叉损失函数;
S44:使用梯度下降法对进行迭代:设定损失函数变化量收敛阈值为;在每次迭代中计算,当满足或时,停止迭代并且输出,得到训练好的KAN模型;由以下迭代方程组(43)~(44)计算得出:(43)
(44)
其中,是固定学习率;是对进行轮迭代后得到的权重;表示第个化合物的血脑屏障渗透性标签;表示第个化合物的血脑屏障渗透性标签预测值;表示对的梯度;是一个可以动态调整的数值,根据不同规模的数据大小设定;
S45:使用对训练好的KAN模型进行性能评估。