1.一种基于机器学习的医疗数据异常检测方法,其特征在于,包括:通过医疗数据采集接口获取多模态医疗数据集,所述数据集包括电子健康记录、医学影像数据及生物信号时序数据;
对所述数据集进行数据清洗、特征选择及多模态融合,生成标准化特征矩阵;
构建混合机器学习模型,所述混合机器学习模型包括无监督聚类模块和有监督分类模块,将所述标准化特征矩阵输入至所述混合机器学习模型中进行联合训练;
所述构建混合机器学习模型,包括:
初始化5个质心,根据样本与质心的马氏距离动态调整样本权重,距离越近的样本权重越高;
迭代更新质心位置,直至质心移动距离小于0.01;
将聚类标签作为伪标签,初始化半监督支持向量机的决策边界;
结合标注数据优化分类模型,核函数采用径向基函数,惩罚因子设为1.0;
其中,所述标注数据的占比≥10%;
基于动态阈值优化算法计算并更新异常判定阈值;
所述动态阈值优化算法,包括:
采用窗口大小为100、步长为20的滑动窗口提取当前数据批次;
计算窗口内数据的马氏距离分布,拟合高斯混合模型,若样本异常概率超过70%,则判定为异常;
若连续3个窗口的异常样本占比超过5%,按下式调整阈值:其中,为第i个窗口的异常比例,为调整前的阈值,为调整后的阈值;
历史分布通过指数平滑法更新,平滑因子设为0.3;
根据所述混合机器学习模型的输出结果及所述异常判定阈值,标记医疗数据中的异常样本,并输出异常类型及关联的临床指标参数。
2.根据权利要求1所述的基于机器学习的医疗数据异常检测方法,其特征在于,所述通过医疗数据采集接口获取多模态医疗数据集,包括:所述医疗数据采集接口基于HL7/FHIR医疗信息交换标准,通过API网关与医院信息系统连接,实时获取患者的电子健康记录,所述电子健康记录包括诊断报告、用药记录、实验室检测结果及手术记录;
集成影像归档系统,解析符合DICOM标准的医学影像数据,所述医学影像数据包括CT扫描图像、MRI的T1/T2加权序列及超声动态视频流;
接入可穿戴设备数据流,通过蓝牙或WiFi协议采集生物信号时序数据,所述生物信号时序数据包括心电信号、脑电信号及血氧饱和度;
对采集到的所有数据附加毫秒级时间戳,并采用动态时间规整算法进行时间对齐。
3.根据权利要求2所述的基于机器学习的医疗数据异常检测方法,其特征在于,还包括:所述CT扫描图像层厚≤2mm,所述MRI的T1/T2加权序列及超声动态视频流分辨率≥1920×1080且帧率≥30fps,所述心电信号的采样频率≥250Hz,所述脑电信号的采样频率≥512Hz,所述血氧饱和度的采样频率≥1Hz。
4.根据权利要求1所述的基于机器学习的医疗数据异常检测方法,其特征在于,所述数据清洗,包括:构建生成对抗网络,生成器基于完整数据训练,生成与真实数据分布一致的缺失值;
判别器通过对抗训练优化生成结果,当所述判别器无法区分所述真实数据与合成数据时,即准确率<55%时,终止训练;
对生物信号时序数据采用Symlet-8小波基进行多尺度分解,通过自适应阈值法抑制高频噪声;
对医学影像数据采用非局部均值滤波,以7像素为搜索半径,计算相似块权重以保留细节特征。
5.根据权利要求1所述的基于机器学习的医疗数据异常检测方法,其特征在于,所述特征选择,包括:计算所述电子健康记录中每个特征与目标变量的互信息值,保留互信息值大于0.2的特征;
使用随机森林评估医学影像频域特征的重要性,迭代移除重要性最低的10%特征,直至剩余特征数≤50;
采用LASSO回归对特征子集进行稀疏化,剔除回归系数接近零的特征。
6.根据权利要求2所述的基于机器学习的医疗数据异常检测方法,其特征在于,所述多模态融合,包括:采用预训练的ResNet-50模型提取影像全局特征,并通过梯度类激活图定位病理区域,裁剪后重采样至固定尺寸;
对所述病理区域再次提取局部特征,降维至256维;
对所述心电信号、所述脑电信号进行短时傅里叶变换,提取梅尔频率倒谱系数作为时频联合特征;
将电子健康结构特征、影像特征及生物信号特征按维度拼接为三维张量,并通过主成分分析降维至100维,生成标准化特征矩阵。
7.根据权利要求1所述的基于机器学习的医疗数据异常检测方法,其特征在于,所述异常样本标记,包括:对距离质心超过3倍标准差的样本,标记为设备异常;
若模型分类置信度低于0.9,标记为病理异常;
当模型结果与医学规则库冲突时,覆盖模型结果为逻辑冲突异常。