欢迎来到知嘟嘟! 联系电话:13336804447 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13336804447
知嘟嘟经纪人
收藏
专利号: 2021106579037
申请人: 江苏大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2025-12-10
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于改进自编码器的特征提取及漏洞利用攻击检测方法,其特征在于,包括如下步骤:步骤1,对采集的恶意流量进行数值化、标准化、归一化和矩阵化预处理操作;

步骤2,应用基于改进自编码器的特征提取方法对预处理后的网络流量进行特征提取,以得到原始数据的最优特征表示;

所述步骤2的具体实现包括如下内容:

l l

步骤2.1,设置编码器的输入向量为x∈R ,R的含义为输入向量实部的集合,将每一层l学习到的输入进行编码并映射为xi∈R,其中l是指输入数据的维度,编码函数确定为hi=σ(ωihi‑1+bi),i=1,2,...n,其中n是指隐藏层的个数,σ为激活函数,ωi为第i个隐藏层卷积核的参数,bi为第i个隐藏层卷积核的偏置,hi则为经过第i个隐藏层后样本的编码表示,hi‑1为经过第i‑1个隐藏层后样本的编码表示;

步骤2.2,经过n层编码器隐藏层和激活函数的转换后,得到可表示为hn=σ(ωnhn‑1+bn),i=1,2,...,n的特征数据,ωn为第n个编码器隐藏层卷积核的参数,bn为第n个编码器隐藏层卷积核的偏置,hn为经过第n个编码器隐藏层后样本的编码表示,hn‑1为为经过第n‑1个编码器隐藏层后样本的编码表示;

步骤2.3,通过反向传播方式调整误差,将最终特征提取模型的重构误差表示为其中m是指训练样本的个数,xi表示原始数据样本,yi为特征重构结果, 为原始数据与重构结果间的欧几里得距离;

所述步骤2.2中的编码器隐藏层具体为:

模型采用8层隐藏层结构,其中第一个卷积层采用了64个卷积核,每个卷积核均设置为

6×6的二维矩阵;第二个卷积层采用了32个卷积核,卷积核大小设置为5×5;第三个卷积层同样采用32个卷积核,卷积核大小设置为4×4;第四个卷积层采用16个卷积核,每个卷积核大小设置为2×2;

同时,每经过一个卷积层的处理后都伴随一个池化层对数据进行处理以进一步对特征进行提取,池化层卷积核大小均设置为3×3;

预处理后的数据在经过4层卷积层与4层池化层的处理后,利用全连接层对数据进行处理;

步骤3,将提取到的特征用于分类模型的训练,对不同的漏洞利用攻击行为进行分类识别;

步骤4,根据步骤3所得的识别结果,得出漏洞利用攻击检测报告。

2.如权利要求1所述方法,其特征在于,所述步骤1的具体实现包括如下内容:步骤1.1,采用one‑hot编码方式将数据样本中的协议类型、网络服务类型、网络连接状态等字符性的属性转换为数值型;

步骤1.2,利用z‑score标准化方法对经过数值化处理后的网络流量进行标准化处理,首先计算样本集各属性的平均值 表示第i条数据的平均值;和平均绝对误差Sk,Sk表示第k个属性的平均绝对误差;然后对每条数据进行标准化度量,从而让标准化后的每条数据记录中的各个属性都对应标准化取值;

步骤1.3,采用离差标准化方法对经过标准化处理后的数据集进行归一化处理,使得数据样本在不同维度之间存在可比性;

步骤1.4,针对归一化处理后的数据集,通过填充数字0将原始1维的41个特征属性样本集扩充到64个特征,并将其转换为8×8的2维数据,从而得到特征提取模型的规范输入,所述41项特征分为TCP连接基本特征、TCP连接的内容特征、基于时间的网络流量统计特征、基于主机的网络流量统计特征4大类,下面按顺序解释各个特征的含义:a.连接基本特征

基本连接特征包含了一些连接的基本属性,如连续时间,协议类型,传送的字节数;

1)Duration.表示连接持续的时间的特征名,单位为秒,连续类型值;

2)Protocol_Type.表示协议类型的特征名,离散类型值;

3)Service.表示目标主机的网络服务类型,离散类型值;

4)Flag.表示连接正常或错误的状态,离散类型值;

5)Src_bytes.表示从源主机到目标主机的数据的字节数,连续类型值;

6)Dst_bytes.表示从目标主机到源主机的数据的字节数,连续类型值;

7)Land.表示连接是否来自同一个主机/端口,若连接来自/送达同一个主机/端口则为

1,否则为0,离散类型值;

8)Wrong Fragment.表示错误分段的数量,连续类型值;

9)Urgent.表示加急包的个数,连续类型值;

b.连接的内容特征

10)Hot.访问系统敏感文件和目录的次数,连续类型值;

11)Num Failed Logins.登录尝试失败的次数,连续类型值;

12)Logged in.表示是否成功登陆,如果成功登录则为1,否则为0,离散类型值;

13)Num Compromised.表示compromised条件出现的次数,连续类型值;

14)Root Shell.指获得超级用户权限;表示是否获得root shell权限,若获得则为1,否则为0,离散类型值;

15)Su Attempted.表示是否出现“su root”命令,若出现则为1,否则为0,离散类型值;

16)Num Root.表示root用户访问的次数,连续类型值;

17)Num File Creations.表示进行创建文件操作的次数,连续类型值;

18)Num Shells.表示使用shell命令的次数,连续类型值;

19)Num Access Files.表示访问控制文件的次数,连续类型值;

20)Num_outbound_cmds.表示一次FTP会话过程中出站连接的次数,连续类型值;

21)Is Hot Login.表示登录用户是否属于“hot”列表,如果属于则取值为1,否则取值为0,离散类型值;

22)Is Guest Login.表示是否为Guest用户登陆,若是则为1,否则为0,离散类型值;

c.基于时间的网络流量统计特征

23)Count.表示在当前连接前两秒这个时间段,和当前连接具有目标主机相同的连接数,连续类型值;

24)Srv Count.表示在当前连接前两秒这个时间段,服务类型与当前连接相同的连接数,连续类型值;

25)Serror Rate.表示在当前连接前两秒这个时间段,目标主机与当前连接相同且出现“SYN”错误的连接百分比,连续类型值;

26)Srv Serror Rate.表示在当前连接前两秒这个时间段,服务类型与当前连接相同且出现“SYN”错误的连接百分比,连续类型值;

27)Rerror Rate.表示在当前连接前两秒这个时间段,目标主机与当前连接相同且出现“REJ”错误的连接百分比,连续类型值;

28)Srv Rerror Rate.表示在当前连接前两秒这个时间段,服务类型与当前连接相同且出现“REJ”错误的连接百分比,连续类型值;

29)Same Srv Rate.表示在当前连接前两秒这个时间段,目标主机和服务类型与当前连接都相同的连接百分比,连续类型值;

30)Diff Srv Rate.表示在当前连接前两秒这个时间段,目标主机与当前连接相同但服务类型不同的连接百分比,连续类型值;

31)Srv Diff Host Rate.表示在当前连接前两秒这个时间段,服务类型与当前连接相同但目标主机不同的连接百分比,连续类型值;

d.基于主机的网络流量统计特征

32)Dst Host Count.表示在当前连接前的100个连接中,目标主机与当前连接相同的连接数,连续类型值;

33)Dst Host Srv Count.表示在当前连接前的100个连接中,目标主机和服务类型都与当前连接相同的连接数,连续类型值;

34)Dst Host Same Srv Rate.表示在当前连接前的100个连接中,目标主机和服务类型都与当前连接相同的连接百分比,连续类型值;

35)Dst Host Diff Srv Rate.表示在当前连接前的100个连接中,目标主机与当前连接相同但服务类型不同的连接百分比,连续类型值;

36)Dst Host Same Src Port Rate.表示在当前连接前的100个连接中,目标主机和源端口都与当前连接相同连接百分比,连续类型值;

37)Dst Host Srv Diff Host Rate表示在当前连接前的100个连接中,目标主机和服务类型与当前连接都相同但源端口不同的连接百分比,连续类型值;

38)Dst Host Serror Rate.表示在当前连接前的100个连接中,目标主机与当前连接相同且出现“SYN”错误的连接百分比,连续类型值;

39)Dst Host Srv Serror Rate.表示在当前连接前的100个连接中,目标主机和服务类型都与当前连接相同且出现SYN错误的连接百分比,连续类型值;

40)Dst Host Rerror Rate.表示在当前连接前的100个连接中,目标主机与当前连接相同且出现“REJ”错误的连接百分比,连续类型值;

41)Dst Host Srv Rerror Rate.表示在当前连接前的100个连接中,目标主机和服务类型都与当前连接相同且出现“REJ”错误的连接百分比,连续类型值。

3.如权利要求1所述方法,其特征在于,所述步骤3的具体实现包括如下内容:步骤3.1,利用特征提取模型对经过预处理后的训练集样本进行特征提取,从而得到降维后的流量特征数据;

步骤3.2,采用支持向量机SVM算法对降维后的流量特征数据进行训练以构建分类模型,利用上述所得流量特征数据作为SVM算法的输入,并选择径向基函数作为SVM算法的核函数,后续对参数不断进行调整,使得训练出的分类器保持较优的分类效果;由于要对多种类别的攻击进行识别,因此要训练k个分类器;

步骤3.3,在自编码器网络的输出层后连接SVM分类器,对数据样本进行分类识别得到分类结果。

4.如权利要求3所述方法,其特征在于,所述激活参数设置如下:采用ReLU函数作为激活函数,t为输入的数值,ReLU函数表达式如下所示:在处理非线性函数时,函数值在非负区间的梯度取值为一个函数,这就意味着在反向传播算法梯度更新时梯度不会趋近于0,保证了模型的收敛速度保持在稳定状态。