1.一种基于曲率优化关联的药物疾病关联预测方法,其特征在于,包括具体步骤如下:S1,获取药物-疾病关联异构图A、药物相似性矩阵DR和疾病相似性矩阵DS:S11:从现有公开数据库中获得药物疾病关联数据,构建药物-疾病关联异构图并表示为矩阵其中m和d分别代表药物和疾病的数量;
S12:从现有公开数据库中获取药物的化学结构,构建药物相似性矩阵S13:从现有公开数据库中获取疾病表型信息,以疾病表型相似性来衡量疾病相似性,构建疾病相似性矩阵S2,设计曲率优化的关联修改模块,对药物-疾病关联异构图A优化,得到药物-疾病关联异构图M*:S21:设计曲率优化的关联修改模块,以用于缓解GCN中的过度压缩问题;
S22:药物-疾病关联异构图A经过关联修改模块处理,得到优化后的药物-疾病关联异构图M*;
S3,使用GCN对药物-疾病关联异构图M*进行特征提取,得到第一特征矩阵F1;
S4,设计相似度感知双曲图神经网络模型对矩阵F1进行特征提取,得到第二特征矩阵F2;
S5,设计门控信号自注意力机制对特征矩阵F2进行特征提取,得到第三特征矩阵F3;
S6,基于特征矩阵F3,选择MLP作为解码器,输出关联预测分数S。
2.根据权利要求1所述的一种基于曲率优化关联的药物疾病关联预测方法,其特征在于,所述S11中A的定义如下:
3.根据权利要求1所述的一种基于曲率优化关联的药物疾病关联预测方法,其特征在于,所述S12的具体步骤如下:S121:从现有公开数据库中获取药物的化学结构后,使用RDKit工具包将药物的化学结构转换为分子的拓扑指纹;
S122:计算每对药物的Tanimoto相似性系数;
Tanimoto相似性系数的计算公式为:
其中,RA和RB分别表示两个分子指纹的集合,将计算得到的每对药物的Tanimoto相似性系数存储在矩阵DR中,最终得到的DR矩阵即为药物相似性矩阵。
4.根据权利要求1所述的一种基于曲率优化关联的药物疾病关联预测方法,其特征在于,所述S13的具体步骤如下:S131:从现有公开数据库中获取疾病表型信息,并使用人类表型本体将疾病表型信息结构化,其人类表型本体提供了疾病与表型之间的层次关系;
S132:基于人类表型本体,能够计算两个疾病之间的表型相似性,为此,能够使用信息内容方法来衡量表型术语的特异性,进而计算疾病之间的相似性,具体公式如下:其中,di和dj表示疾病,T(di)和T(dj)分别表示疾病di和dj在人类表型本体中的表型术语集合,t表示表型术语,IC(t)表示表型术语t的信息内容,将所有疾病对的表型相似性值存储在矩阵DS中,矩阵中的元素DS(i,j)表示疾病di和dj之间的相似性。
5.根据权利要求1所述的一种基于曲率优化关联的药物疾病关联预测方法,其特征在于,所述S2中关联修改模块的执行步骤如下:S211:利用DS和DR和药物-疾病关联异构图A构建一个新的关联异构网络M,即:S212:通过M计算整个药物-疾病关联异构图中所有链路的Ollivier-Ricci曲率,找出Ollivier-Ricci曲率值最小的na条边,并为这些边添加虚拟相似性链路来缓解负曲率问题,同时,找出Ollivier-Ricci曲率值最大的nr条关联边,并通过移除它们来降低网络中的正曲率,最终保留连接药物节点和疾病节点的边,得到优化后的药物-疾病关联图M*:其中A*为对药物-疾病关联异构图A移除大曲率边和添加虚拟相似性链路后得到的矩阵,A*T是A*的转置矩阵。
6.根据权利要求1所述的一种基于曲率优化关联的药物疾病关联预测方法,其特征在于,所述S3的具体步骤如下:使用GCN对药物-疾病关联图M*进行特征提取得到特征矩阵F1,定义公式:其中,其中是单位矩阵,是药物-疾病关联图的度矩阵,它是一个对角矩阵,代表着对度矩阵的每个对角线元素取倒数再开平方根,代表第l层GCN的训练参数,LeakyReLU代表非线性激活函数,输入层H(1)是M*,L是卷积层的层数。
7.根据权利要求1所述的一种基于曲率优化关联的药物疾病关联预测方法,其特征在于,所述S4的具体步骤如下:S41:使用指数映射,将药物疾病关联的特征矩阵F1中每个节点的欧几里得特征向量映射为双曲空间特征向量;对于药物疾病特征矩阵F1,x代表双曲空间中的一个点,代表节点x的欧几里得特征向量,映射公式如下:其中,表示被映射到双曲空间后的特征向量,表示以x为起点的指数映射;c是双曲空间的曲率,x代表双曲空间中的一个点,作为指数映射的起始点;表示在Poincaré球模型中的莫比乌斯加法,它是双曲空间中的一种距离度量;tanh代表双曲正切函数,用于将实数映射到(-1,1)区间内;是曲率c的平方根的绝对值,用于调整映射的尺度;是与点x相关的一个比例因子,它依赖于曲率c和点x在双曲空间中的位置;代表特征向量的欧氏范数,表示特征向量的长度;表示归一化操作,将特征向量归一化,并根据曲率c进行调整,其公式将欧氏空间中的药物疾病关联的特征向量映射为双曲空间中的特征向量;
S42:计算相似度感知的邻域权重αij,使双曲图神经网络对药物疾病特征的特征聚合具有鲁棒性,αij的计算公式如下:其中di是节点i的度;
S43:对药物疾病的特征进行特征聚合,得到最终输出特征表示计算出邻域权重之后,就能够对药物疾病的特征进行特征聚合,在双曲空间中,特征聚合可以通过以下方式实现:其中L代表层数,l从1开始计算,是节点i在第l层的特征表示,是节点i的邻居集合,是双曲空间中的莫比乌斯加法,是对邻居特征的聚合操作,αij是节点i和j之间的权重,⊙表示逐元素相乘,最终输出特征表示为S44:运用非线性激活函数为特征引入非线性特性;引入双曲正切函数tanh作为非线性激活函数,以引入非线性特性,从而增强模型的表达能力,定义公式为:其中,是经过非线性函数后的表示;
S45:使用对数映射将双曲空间中的药物疾病的特征向量映射回欧式空间中的特征向量:其中,表示以q为起点的对数映射;q是双曲空间中的一个点,其选取原点,即零向量作为对数映射的参考点;是双曲空间中的另一个点,目标是找到从q到的切向量;c是双曲空间的曲率;是一个依赖于曲率c和点q位置的比例因子,具体为表示在Poincaré球模型中的莫比乌斯加法;tanh-1是双曲正切函数的反函数,即双曲反正切函数;||·||2表示欧氏范数,其公式的几何意义是,给定双曲空间中的两个点q和对数映射计算从q到的测地线在q处的切向量,其切向量能够被看作是q和之间“方向”和“距离”的欧氏表示,映射回欧式空间的特征矩阵表示为
8.根据权利要求1所述的一种基于曲率优化关联的药物疾病关联预测方法,其特征在于,所述S5的具体步骤如下:S51:引入了门控机制,使得自注意力机制在处理药物疾病信息时能够更加关注于那些对于当前药物重定向任务更为重要的药物疾病特征,从而提高模型的性能和泛化能力,定义公式:Q=F2WQ#(9)
K=F2WK#(10)
V=F2WV#(11)
其中,和是可学习的权重矩阵;
S52:需要计算一个门控信号,其信号将用于调节值矩阵V的贡献,门控信号能够通过查询矩阵Q和键矩阵K的点积来计算,然后通过一个可学习权重矩阵和一个非线性激活函数sigmoid来生成;
GateSignal=sigmoid(QKTWG)#(12)
S53:将门控信号应用于值矩阵V,能够通过将门控信号与值矩阵V相乘来实现,从而控制每个值向量在最终输出中的权重;
GatedValues=GateSignal×V#(13)
其中dk是向量K的维度,Softmax函数进行归一化操作,σ表示进行ReLU操作,GateSignal表示门控信号。
9.根据权利要求1所述的一种基于曲率优化关联的药物疾病关联预测方法,其特征在于,所述S6的具体步骤如下:基于特征矩阵F3,其中Zi,j代表特征矩阵F3中药物i和疾病j关联特征,Si,j是药物mi和疾病dj之间的关联评分,选择多层线性感知机MLP作为解码器,用于预测每个类别的概率:其中和代表可学习的参数,br和bs是偏置项,σ为可选的激活函数。