欢迎来到知嘟嘟! 联系电话:13336804447 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13336804447
知嘟嘟经纪人
收藏
专利号: 2023110941208
申请人: 燕山大学
专利类型:发明专利
专利状态:已下证
专利领域: 电通信技术
更新日期:2026-01-27
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.基于高斯混合隐马尔可夫及迁移学习的多阶段攻击检测算法,其特征在于包括以下步骤:

步骤一、对警报数据进行预处理、特征提取和降维,从中提取基本字段,并分配观察和状态符号;

步骤二、将处理后的序列形式数据送入GMM-HMM进行模型训练,HMM的观测概率分布由GMM表示,能够有效地从复杂的警报混合体中提取出真实的威胁警报,同吋排除误报和无关的警报,在存在多个MSA的情况下,混合警报数据被聚类为多个GMM,这些GMM中的每个高斯分量对应于MSA的每个阶段,GMM-HMM全面地学习和处理大量复杂交错的高维警报特征;

步骤三、采用优化的Baum-Welch算法和优化的Viterbi算法估计模型参数,使得观测序列在该模型下的概率最大化,包括更新状态转移概率矩阵、初始状态概率向量以及高斯混合模型的参数,警报观测样本分布由GMM生成,而状态转移则遵循HMM的规则;

适应于训练GMM-HMM模型参数的优化Baum-Welch算法以解决传统HMM在面对复杂MSA时的识别和预测问题,警报观测概率分布由GMM决定,包括前向概率、后向概率的计算,优化后的Baum-Welch算法能够更准确地估计模型参数,以适应MSA行为的复杂性和不确定性,UL中训练数据是无标签的,使用优化Baum-Welch算法来估计GMM-HMM的参数,首先使用初始化参数计算Q函数,然后在给定观测数据的情况下,找到新的模型参数,使得Q函数最大化,通过反复进行这两个步骤,直至模型参数收敛;

适应于训练GMM-HMM模型参数的优化Viterbi算法能够更有效地识别和预测攻击序列,提高模型的检测性能,Viterbi算法利用动态规划来寻找具有最大概率的路径,这条路径对应一个状态序列,变量δ为在时刻t状态为si的所有单个路径中概率最大值,变量ψ定义在时刻t状态为si的所有单个路径中取得概率最大路径的第t-1个结点的状态sj的值,计算式中的观测概率密度是由GMM决定的;

所有隐藏状态,攻击路径阶段的δ值和ψ值通过下式计算得到:

步骤四、使用改进后的TL方法,通过对源模型参数进行线性变换,解决优化模型参数的困难和MSA标记数据集的有限性问题,同时在GMM-HMM训练算法的目标函数中添加一个KL散度值作为惩罚项来缩小源域和目标域之间的分布差异,解决TL过程中的偏差问题;

步骤四提出的改进后的TL方法,通过对源模型参数进行线性变换,实现对目标任务的模型参数的微调,通过UL解决MSA场景下标签数据稀缺的问题,所述的改进后的TL方法的迁移公式如下:其中,是改进后的目标域模型参数,通过结合源域模型参数λS和目标域模型参数λT得到,k对应GMM-HMM的第k个状态,即GMM的第k个高斯分量,ek表示在源域进行SL的GMM-HMM的每个高斯分量的观察中心,表示在目标域的UL训练的每个高斯分量的观察中心,分别对应于均值向量μk和ε为定义的源头与目标相关程度的阈值。

2.根据权利要求1所述的基于高斯混合隐马尔可夫及迁移学习的多阶段攻击检测算法,其特征在于:所述的GMM-HMM包括一个六元组λ=(N,M,A,π,B,E),N为隐藏状态的数量,M为GMM中的高斯混合成分数量,表示MSA中的阶段数,a为转移概率矩阵,其中每个元素表示MSA从一个阶段到另一个转移的转移概率,π为初始概率分布向量,表示每个攻击阶段作为初始攻击阶段的概率,B为观察矩阵,其每一行表示每个攻击阶段的警报数据被聚类成的GMM中的高斯分量,由参数混合系数ω、均值向量μ、协方差矩阵∑组成,E为记录的GMM中每个高斯分量的聚类中心,作为TL方法的判断条件。

3.根据权利要求1所述的基于高斯混合隐马尔可夫及迁移学习的多阶段攻击检测算法,其特征在于:步骤一具体包括数据解析、数据清理、特征编码、特征缩放、特征提取与降维、序列数据准备,经过上述步骤将预处理后的数据转换为适合GMM-HMM的序列形式,并为MSA数据集的每个攻击阶段和警报类型分配符号表示,将连续的警报数据按警报样本窗口大小划分,并将每个样本窗口的数据视为一个观测序列,高斯混合隐马尔可夫模型中的π、A中的每个元素的值被初始化为通过k-means算法对观测数据进行聚类,将每个聚类的中心设置为一个混合高斯的均值,将聚类的协方差设置为该混合高斯的协方差,将聚类中数据点的数量与总数量之比设置为该混合高斯的权重。

4.根据权利要求1所述的基于高斯混合隐马尔可夫及迁移学习的多阶段攻击检测算法,其特征在于:GMM中的混合系数ωj代表第j个高斯分量的占比,第j个分模型的参数为μj均值向量、∑j协方差矩阵;每个高斯分量对应于GMM-HMM中的一个状态,GMM-HMM中的每个状态就对应MSA的每个阶段;所述的高斯混合模型的概率密度函数通过下式计算得到:log P(Ot|qt=si,Θ)=logωiN(Ot|μi,∑i)

其中ωi是混合系数,N(Ot|μi,∑i)表示观测Ot服从均值为μi、协方差矩阵为∑i的高斯分布的概率密度函数,d是观测数据的维度。

5.根据权利要求1所述的基于高斯混合隐马尔可夫及迁移学习的多阶段攻击检测算法,其特征在于:所述的前向概率αt(i)、后向概率βt(i)和更新的模型参数通过下式计算得到:其中,前向概率αt(i)表示到时刻t部分观测序列为O1,O2,...,Ot且状态为si的概率,后向概率βt(i)表示在时刻t状态为si的条件下,从t+1到T的部分观测序列为Ot+1,Ot+2,...,OT的概率,GMMi(Ot)表示在隐藏状态si下生成观察数据点Ot的混合高斯模型的概率,GMMj(Ot+1)表示观察数据点Ot+1由隐藏状态sj生成的混合高斯模型的概率。

6.根据权利要求1所述的基于高斯混合隐马尔可夫及迁移学习的多阶段攻击检测算法,其特征在于:KL散度值用于衡量两个概率分布之间的相似性,在源域上训练一个GMM-HMM,在目标域训练数据集也得到一个GMM-HMM,计算GMM-HMM之间的KL散度,将计算得到的惩罚项添加到GMM的Q函数中,构成一个新的目标函数,使用带有惩罚项的目标函数再在目标域训练数据集上进行GMM-HMM模型的训练微调,两个高斯分量之间的KL散度值通过下式计算得到:其中k是高斯分量的维数,tr表示矩阵的迹,det表示矩阵的行列式。