1.一种联合对称不确定性和超参数优化神经网络的入侵检测方法,其特征在于包括以下步骤:S1、数据预处理,对于非数值特征进行独热编码,转换为数值特征,并对数值做归一化处理;
S2、特征选择,利用对称不确定性用于计算特征与类别之间的相关性,利用松散条件下的近似马尔科夫毯用于计算特征与特征之间的冗余关系,将对称不确定性与松散条件下的近似马尔科夫毯联合,形成联合不确定性的特征选择方法,选择最优特征子集;
S3、采用卷积神经网络和记忆神经网络构建CNN-LSTM分类模型,利用CNN学习数据的空间特征,利用LSTM学习数据的时间特征;
S4、使用改进后的PSO算法对CNN-LSTM模型中卷积核大小filter、隐藏神经元个数units、学习率learning rate和池化层参数dropout进行自动超参数优化,最终确定优化后的CNN-LSTM模型;采用改进后的PSO算法寻找CNN-LSTM模型的最优参数,包括模型整体的learning-rate和dropout,以及CNN中的filter和LSTM中的units,共四个超参数进行寻优,进而改进CNN-LSTM模型的分类性能;
S5、算法评估,在KDD99、UNSW-NB15数据集上对提出的算法的入侵检测性能进行验证,从准确率、精确率、召回率、F1分数、马修斯相关系数和卡帕相关系数多个评价指标上与其他算法进行对比,证明了算法的优越性,也证明了算法在不同数据集上超参数优化的有效性;
步骤S2中,松散条件下的近似马尔可夫毯的公式如下:
SU(xi,xj)-SU(xj,C)≥δ
其中,xi和xj表示特征,C表示类别标签,δ为松散因子,取值范围是[0,1];
基于松散条件下的近似马尔可夫毯用于冗余特征的聚类,如果特征xi存在马尔科夫毯MBi,那么,特征xi和MBi将被归为同一个簇中,如果不存在,那么就添加一个仅包含xi的新簇,不需要事先指定簇的个数,在完成聚类后,根据SU(xi,C)的值对每个簇中的特征进行排序,簇内排名第一的特征称为占优特征,然后使用每个簇的占优特征对簇进行排序;
所述联合不确定性的特征选择方法为在遵循簇排序、簇内特征排序的前提下,充分考虑特征之间组合而形成的联合效应,特征X和特征Y联合后与类别标签C的联合互信息的定义如下所示:I(X,Y;C)=H(X,Y)+H(C)-H((X,Y),C)
其中,H(H,Y),H((X,Y),C)定义如下:
H(C)定义如下:
使用对称不确定性对上述联合互信息进行标准化,可以得到特征X和特征Y联合后与类别标签C的联合不确定性SU(X,Y;C),如下所示:其中,P(xi)表示变量X=xi的概率,随机变量Y={y1,y2,…,yj},P(xi,yj)是X和Y的联合概率,H(X,Y)为两个随机变量X和Y的联合熵;
基于联合不确定性进行特征选择的过程如下:
步骤一,选择排名第一的簇中的占优特征初始化最优特征子集并丢弃其所在簇中的其他特征;
步骤二,按簇的排名顺序和簇内特征排序,从簇中的占优特征开始,计算占优特征与最优特征子集中的每个特征的联合不确定性值并进行求和,直到遍历所有簇中特征,取联合不确定性值加和最大的特征,加入到最优特征子集中;
步骤三:重复步骤二,直至遍历所有的簇,最终得到最优特征子集;
步骤S4中改进PSO算法具体方法如下:
在粒子群算法的速度更新方程中引入采用余弦函数动态调整的惯性权重ωiter,用以控制历史速度对粒子的当前移动速度的影响程度,对速度公式进行如下改进:其中,代表i粒子t时刻在第d维空间中的速度;代表i粒子t时刻时在第d维空间中的坐标;c1代表认知因子,c2代表社交因子,二者统称为加速常数,为粒子i在t时刻中经过的最优位置称为个体最优位置,gbestd为所有粒子的中的最优位置就成为了全局最优位置,iter表示当前迭代次数,itermax表示最大迭代次数,本算法中惯性权重ωiter取值范围为[0.1,1.1],因此,取ωmin=0.1,ωmax=1.1;r1和r2是[0,1]之间的随机数;
对c1和c2的计算方法进行改进,如下所示:
其中,c1,start、c1,end和c2,start、c2,end的取值范围为[0.5,2.5],在初始化时,为了使得迭代初期的发散性较强以及迭代后期的收敛性较强,设置c1,start=2.5,c1,end=0.5,c2,start=0.5,c2,end=0.5。
2.根据权利要求1所述的一种联合对称不确定性和超参数优化神经网络的入侵检测方法,其特征在于:步骤S1中对于非数值特征进行独热编码,最大最小归一化方法的公式如下:Xmax和Xmin分别是特征X的最大值和最小值。
3.根据权利要求1所述的一种联合对称不确定性和超参数优化神经网络的入侵检测方法,其特征在于:步骤S4中优化CNN-LSTM分类模型如下:在改进PSO算法中,通过最小化Loss的值找到最优的超参数组合,Loss的计算方法如下所示:Loss=1-Accuracy
其中,Accuracy表示模型分类的准确率。
4.根据权利要求1所述的一种联合对称不确定性和超参数优化神经网络的入侵检测方法,其特征在于:步骤S4中算法评估:首先,在KDD99数据集上,验证联合不确定性特征选择方法、改进的PSO算法及CNN-LSTM分类模型的有效性,包括同类特征选择方法的对比,改进PSO算法与未改进PSO算法的对比,CNN-LSTM分类模型与其他分类模型的对比,以及算法的消融实验对比;
其次,验证算法的整体性能,包括算法与其他同类算法在各指标上的对比;
最后,将算法应用于UNSW-NB15数据集,以证明算法可以根据数据的不同进行超参数优化的有效性。