1.一种基于AI的基因数据分析系统,其特征在于,所述基因数据分析系统包括以下模块:基因数据获取模块,用于获取患者的基因组数据、表观组数据和蛋白质组数据,对数据进行处理,得到多组学数据矩阵;
特征向量提取模块,用于通过1D-CNN一维卷积神经网络对所述多组学数据矩阵进行局部关联模式挖掘,通过持续同调分析识别基因网络的拓扑结构,并利用动态注意力机制对序列特征和拓扑特征矩阵分配动态权重,输出加权后的多尺度特征向量;
融合特征生成模块,用于基于Transformer架构建立多模态融合模型对所述多尺度特征向量进行融合,利用预训练模型AlphaGenome的通用基因组特征微调适配疾病数据集,输出融合特征向量;
基因数据分析模块,用于将所述融合特征向量输入MLP多层感知机进行疾病风险预测,结合SHAP算法生成疾病风险预测指数,根据预测指数生成辅助决策方案。
2.如权利要求1所述的一种基于AI的基因数据分析系统,其特征在于,所述基因数据获取模块包括以下单元:格式转换与清洗单元,用于获取患者的基因组数据、表观组数据和蛋白质组数据,将原始测序数据转换为统一格式,并去除低质量读段,得到清洗基因数据;
k-mer向量化单元,用于对DNA序列进行k-mer预处理,将长序列拆分为短片段,生成向量化的基因特征;
多组学数据整合单元,用于将基因组数据、表观组数据和蛋白质组数据对齐到相同基因坐标,生成多模态数据矩阵,至少包括基因表达、甲基化状态和蛋白质丰度。
3.如权利要求1所述的一种基于AI的基因数据分析系统,其特征在于,所述特征向量提取模块包括以下单元:卷积计算单元,用于采用大卷积核对输入序列进行滑动扫描;使用小的卷积核对上层输出的特征图进行二次提取;
特征生成单元,用于通过最大池化保留局部区域内最显著的特征值与基因表达变化最相关的甲基化特征组合,输出反映局部分子关联的序列特征矩阵。
4.如权利要求1所述的一种基于AI的基因数据分析系统,其特征在于,所述特征向量提取模块还包括以下单元:关联评分单元,用于通过基因表达量的共变化趋势、蛋白质之间的物理结合证据、表观修饰的协同调控关系,建立基因间的关联评分;
基因关联单元,用于将评分高于设定阈值的基因对进行连接,形成初步的基因关联网络,其中每个节点代表一个基因,边的粗细表示关联强度;
阈值调整单元,用于从关联强度高的基因对逐步降低阈值,将关联弱的基因对纳入网络;
结构记录单元,用于追踪并记录出现的关键拓扑结构,至少包括连通分量,环路结构和枢纽节点;
特征转化单元,用于计算每个拓扑结构的存在时长,将拓扑特征转化为数值化的拓扑特征矩阵。
5.如权利要求1所述的一种基于AI的基因数据分析系统,其特征在于,所述特征向量提取模块还包括以下单元:矩阵输入单元,用于将1D-CNN输出的序列特征矩阵和持续同调分析得到的拓扑特征矩阵输入动态注意力机制;
提取特征单元,用于分别对序列特征和拓扑特征进行通道维度的注意力权重计算,通过全局平均池化提取特征通道的全局信息,得到初始注意力权重向量;
权重分配单元,用于利用自注意力机制对特征序列进行空间维度的权重分配,捕捉特征间的长距离依赖关系,输出加权后的多尺度特征向量。
6.如权利要求1所述的一种基于AI的基因数据分析系统,其特征在于,所述融合特征生成模块包括以下单元:特征处理单元,用于将多尺度特征向量进行标准化处理后添加位置编码信息,利用Transformer的注意力头专注于基因组与蛋白质组特征的直接相互作用;
向量输出单元,用于对经过多头自注意力处理后进入前馈神经网络,通过非线性变换强化重要特征,输出适配疾病的融合特征向量。
7.如权利要求1所述的一种基于AI的基因数据分析系统,其特征在于,所述基因数据分析模块包括以下单元:多层感知机单元,用于确定MLP多层感知机的第一层隐藏层筛选出与疾病相关的关键通路特征,第二层聚焦到具体的基因调控模块,输出层则将信息转化为疾病风险概率指数,根据预测概率指数生成辅助决策方案。
8.实现如权利要求1所述一种基于AI的基因数据分析系统的方法,其特征在于,所述方法包括以下步骤:获取患者的基因组数据、表观组数据和蛋白质组数据,对数据进行处理,得到多组学数据矩阵;
通过1D-CNN一维卷积神经网络对所述多组学数据矩阵进行局部关联模式挖掘,通过持续同调分析识别基因网络的拓扑结构,并利用动态注意力机制对序列特征和拓扑特征矩阵分配动态权重,输出加权后的多尺度特征向量;
基于Transformer架构建立多模态融合模型对所述多尺度特征向量进行融合,利用预训练模型AlphaGenome的通用基因组特征微调适配疾病数据集,输出融合特征向量;
将所述融合特征向量输入MLP多层感知机进行疾病风险预测,结合SHAP算法生成疾病风险预测指数,根据预测指数生成辅助决策方案。
9.实现如权利要求8所述一种基于AI的基因数据分析系统的方法,其特征在于,所述方法包括以下步骤:将1D-CNN输出的序列特征矩阵和持续同调分析得到的拓扑特征矩阵输入动态注意力机制;
分别对序列特征和拓扑特征进行通道维度的注意力权重计算,通过全局平均池化提取特征通道的全局信息,得到初始注意力权重向量;
利用自注意力机制对特征序列进行空间维度的权重分配,捕捉特征间的长距离依赖关系,输出加权后的多尺度特征向量。
10.实现如权利要求8所述一种基于AI的基因数据分析系统的方法,其特征在于,所述方法包括以下步骤:将多尺度特征向量进行标准化处理后添加位置编码信息,利用Transformer的注意力头专注于基因组与蛋白质组特征的直接相互作用;
对经过多头自注意力处理后进入前馈神经网络,通过非线性变换强化重要特征,输出适配疾病的融合特征向量。