1.融合Balanced WCGAN-GP与IBAOA特征选择的网络入侵检测方法,其特征在于,包括:步骤S1,获取入侵检测数据集,并对入侵检测数据集进行预处理;
步骤S2,通过Balanced WCGAN-GP模型对数据集进行不平衡处理;
步骤S3,通过mRMR算法策略、Sigmoid传递函数、Lévy飞行和Macro F1分数加权适应度函数改进AOA算法,形成IBAOA模型,筛选出数据集中的关键特征;
步骤S4,将筛选出的特征组合输入至网络入侵检测分类模型,并使用TPE优化算法对网络入侵检测分类模型的参数寻优,执行最终的入侵检测与分类;
所述步骤S2中,WCGAN在生成器和判别器的输入中引入了条件信息,判别器不仅需要区分生成数据与真实数据,还需要判断数据是否与给定的条件信息相符,即WCGAN的目标函数如下:;
式中,和分别为判别器和生成器的输出,和分别为真实样本和噪声,和分别表示对真实样本分布和噪声分布的期望值,c为条件信息;
将Wasserstein距离引入WCGAN,代替其中的JS散度,用于度量从一个分布到另一个分布的最小代价,其公式如下:;
式中,表示集合的下限集,表示分布所有可能组合的联合分布集合,对每个可能的联合分布,计算采样自的之间距离的期望,所有不同联合分布中期望的最小值即为分布的Wasserstein 距离;
模型中采用 Lipschitz 限制条件,而其连续性定理限制了连续函数的最大局部变化,其公式如下:;
式中,和分别表示函数在输入值和处的函数值,为Lipschitz 常数,表示函数在定义域内变化的最大速率;
则,WCGAN 模型的目标函数如下:
;
在处理Lipschitz分布时,权重剪裁容易导致梯度消失甚至梯度爆炸,在总损失函数中引入梯度惩罚GP形成WCGAN-GP网络,从而使训练更为稳定,WCGAN-GP的目标函数为:;
;
式中,为惩罚项系数,和分别为真实数据和生成器生成数据,为一个随机数,服从 [0,1]上的均匀分布,为的期望函数,为将输入判别器后其梯度的二范数;
引入逆比例权重思想对WCGAN-GP的目标函数进行改进,形成Balanced WCGAN-GP模型,根据每个类别的样本量调整损失函数中的权重,从而使得目标函数在优化过程中更加关注样本量少的类别,改进后的目标函数如式:;
式中,为类别的总数,为类别的逆比例权重,具体为:;
式中,是类别的样本数量,类别样本数量少的类别会有更高的权重,从而促使生成器更加关注这些少数类别,此时判别器损失和生成器损失 分别如下式:;
。
2.根据权利要求1所述的一种融合Balanced WCGAN-GP与IBAOA特征选择的网络入侵检测方法,其特征在于,所述步骤S1中,入侵检测数据集采用NSL-KDD和CICDDoS2019,包括攻击类别与正常流量的相关数据。
3.根据权利要求1所述的一种融合Balanced WCGAN-GP与IBAOA特征选择的网络入侵检测方法,其特征在于,所述步骤S1中,预处理方式包括空值处理、标签编码和最大-最小值缩放;
其中,空值处理是通过删除缺失值、不相关的参数,清理并过滤数据;
标签编码是在应用归一化技术之前,对除最后一个特征以外的所有分类特征进行标签编码;
最大-最小值缩放在标签编码后,对获得的输出应用最小-最大归一化技术,以将每个特征的数值范围缩放至[0,1]区间,其转换公式为:;
式中,和分别是特征向量的最小值和最大值,和分别是特征样本的原始值和归一化后的值。
4.根据权利要求1所述的一种融合Balanced WCGAN-GP与IBAOA特征选择的网络入侵检测方法,其特征在于,所述步骤S3中,通过mRMR算法策略初始化AOA的种群,首先计算特征与标签之间的相关性以及特征之间的冗余度,然后通过计算mRMR值并对特征进行排序,选取具有最大相关性和最小冗余的特征,其中,计算特征与标签之间的相关性,其公式如下:;
式中,代表特征集与类别之间的相关性,由各个特征和类别之间的所有互信息值的均值定义,而代表单个特征和类别的互信息值,其计算方式如下:;
式中,是两个随机变量,是和的联合概率密度函数,而和分别是和的边缘概率密度函数;
计算特征之间的冗余度,其公式如下:
;
为剔除冗余特征并筛选出相关性高、冗余度低的特征集合,通过计算差值,相关性越大、冗余度越小的特征会获得更高的mRMR值,其公式如下:;
特征进行排序得到每个特征的排名;
确保种群在特征选择的过程中具有较好的覆盖范围和初始解质量,根据数据集中特征的mRMR值排名与总特征数量,设定选定前个特征的范围,其公式如下:;
式中,表示向上取整,表示向下取整;
值在确定的范围内均匀分布,生成值集合,其中每个值对应一个种群个体,值的生成公式如下:;
式中,表示第个种群的特征数量,即第个种群包含了mRMR值排名前个的特征,是AOA算法初始化的种群总数,是当前种群的索引,范围从0到。
5.根据权利要求4所述的一种融合Balanced WCGAN-GP与IBAOA特征选择的网络入侵检测方法,其特征在于,所述步骤S3中,为有效将连续搜索空间映射到离散搜索空间,采用Sigmoid传递函数,将AOA转换为二进制形式,其公式如下:;
式中,是指在迭代第次时维度中的位置,为将其映射到离散空间,对应的更新公式如下:。
6.根据权利要求5所述的一种融合Balanced WCGAN-GP与IBAOA特征选择的网络入侵检测方法,其特征在于,所述步骤S3中,采用Lévy飞行解决AOA在搜索过程中也可能陷入局部最优值的困境,Lévy步长表达式如下:;
式中,和是服从正态分布的变量,即,,,定义为:;
式中,是标准伽玛函数,取值范围是[0, 2];
将Lévy飞行引入AOA的勘测阶段中,增强其全局搜索能力和跳出局部最优的能力,改进后的位置更新公式为:;
式中,表示第个解的第个位置在下一次迭代中的更新,为到目前为止获得的最好解中的第个位置,MOP为第次迭代的函数值,是一个很小的数,和分别代表第个位置的上界和下界,为控制参数,设定为0.5,为随机数,是一个缩放因子,用于调整Lévy飞行步长的影响范围,取值为0.01。
7.根据权利要求6所述的一种融合Balanced WCGAN-GP与IBAOA特征选择的网络入侵检测方法,其特征在于,所述步骤S3中,引入Macro F1分数作为分类性能的指标,并结合特征数量来构建适应度函数,以实现特征选择的双重目标,减少特征数量和提升分类性能,相应的适应度函数表示如下所示:;
式中,是数据集特征的数量,是选择的特征数量,用于调节选择特征的强度,设置范围是[0, 1],相比于压缩特征,目的是寻找最佳泛化性能的特征组合,设置为0.01,是分类类别的数量,计算公式如下所示:;
式中,是模型在第个类别的F1分数,计算方式如下所示:;
式中,代表第个类别的精度,代表第个类别的召回率。
8.根据权利要求7所述的一种融合Balanced WCGAN-GP与IBAOA特征选择的网络入侵检测方法,其特征在于,所述步骤S4中,网络入侵检测分类模型是通过IBAOA方法筛选出的最佳特征被构建为新的特征集,随后采用正则化损失函数的XGBoost分类器对这些特征进行分类,其中,XGBoost分类器训练过程包括正则化和提升两个阶段;
正则化阶段:
设网络入侵检测数据特征集为;共有个样本,为特征空间,R为实数空间,数据子集对应的标签为,因此棵回归树的最终预测结果如式:;
式中,,为所有回归树的集合,回归树对输入样本x给出的预测值,为树的结构,是树中叶子节点的个数;
为了控制模型的复杂度并防止过拟合,引入正则化项 ,进一步得到目标函数O的表达式为:;
式中,;
为第个样本对应的真实标签,为损失函数,和为惩罚项系数,为第个叶子节点的权重;
提升阶段:
设为第个样本在次迭代时的预测值,利用前向分步加法算法,添加到模型中进行新函数的学习,此时目标函数转换为:;
进一步对进行二阶泰勒展开,目标函数二阶近似优化为:;
式中,,为损失函数的一阶导数,,为损失函数的二阶导数,去掉常数项后,公式如下所示:;
对于固定的树结构,叶子的最优权重计算公式为:;
相应的最优值计算公式为:
;
式中,为树的目标分数,值越小越好,使用贪婪算法从树的根节点开始迭代地向树中添加分支,逐步构建出整棵树,枚举出可行的分割点,选择最小,损失函数减少量最大时的分割点作为划分点,设和是分裂后左、右节点的样本集,令,则拆分后的损失函数减少量如下所示:。
9.根据权利要求8所述的一种融合Balanced WCGAN-GP与IBAOA特征选择的网络入侵检测方法,其特征在于,所述步骤S4中,TPE优化算法优化网络入侵检测分类模型结构与参数的具体步骤如下:导入原始数据,设置分类器的结构与超参数范围,并随机生成一组初始化参数组合;
执行TPE概率密度估计,通过采样函数计算EI值,并根据先前采样的EI值选择下一个需要评估的参数组合;
将具有最大EI值的参数组合输入分类器进行训练,并输出当前超参数下的模型预测结果;
如果新选择的参数组合的误差符合精度要求,则终止算法执行,并输出相应的参数组合和模型的预测误差;
如果不符合精度要求,则对采样函数进行修正,重新TPE概率密度估计,直到满足设定的迭代次数为止;
其中,通过对和进行建模,代替了对的单一建模,代表解的分布情况,代表已知解的情况下参数的分布情况,引入了优化标准来引导搜索配置空间,的计算如下:;
式中,是已经定义好的阈值,表示观测值的损失函数比小的密度估计值,表示观测值的损失函数比大的密度组成;
的定义如下所示:
;
通过转化,并构建函数:
;
即,在最大化寻找更优的超参数过程中,应该逐步迭代到使 更小的值,即逼近最大概率的和最小概率的。