欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2021106595415
申请人: 江苏大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2025-07-03
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于相似性度量的漏洞攻击数据库构建方法,其特征在于,包括:步骤1,对数据集进行预处理得到代表性的数据集合;

步骤2,通过组合特征降维方法获取漏洞攻击的最优特征子集;

步骤3,训练多个SVM分类器构建分类模型,完成漏洞攻击的分类识别;

步骤4,对分类后的漏洞攻击利用混合相似性度量判断其是否应该存入数据库中;

步骤5,根据步骤4的结果,构建漏洞攻击数据库;

所述步骤1具体包括:

步骤1.1,网络流量原始的数据集中会存在的脏数据会影响分类算法的运行效率,因此,先进行数据预处理能够节省分析的时间,数据预处理分为两步:数据抽样和数据规范化;

步骤1.2,采用分层抽样的方法进行数据抽样,首先对原始样本按照规则进行分层,然后对每一层进行随机抽样,使用随机的方式从分层之后的每一层中抽取某个数量的样本,在抽样的过程中采用等比例的方式进行抽样,或者采用不等比例的方式进行抽样;

步骤1.3,数据规范化是将数据按照规则映射到一个较小的数值区间内,加快数据分析过程,采用的规范化方法为最小-最大规范化,而且无论是训练集还是测试集都要进行规范化,使用规范化方法将样本的维度映射到[-1,1]之间,映射函数为:其中,r为样本,min代表的是计算的维度中样本的最小值,max代表的是计算的维度中样本的最大值;

所述步骤2具体包括:

步骤2.1,通过ReliefF算法进行过滤,计算特征和样本类别的相关性,计算得来的值越大则对应的权重也会增加,也表示该特征属性对于样本的识别结果影响更大,当得到的权重高于预先设定的阈值时则保留该特征,反之删除该特征,得到一个特征子集,在该特征子集上进行相关特征选择CFS算法进一步进行过滤,CFS评估的是特征子集的价值,保留价值高的特征,删除价值低的特征,得到第一个特征子集;

步骤2.2,在第一个特征子集上采用启发式序列向前搜索策略进一步对特征进行二次选取,得到近似最优特征子集,首先以空集为基础,挑选能够提高分类准确率的一个或者几个特征加入到候选特征子集中,反复这个过程,直到候选特征子集中的个数达到特征总个数,得到第二个特征子集;

步骤2.3,在第二个特征子集上进行主成分分析特征提取,计算出样本空间S的协方差矩阵C,通过协方差矩阵C计算它的正交矩阵P和特征值λ

2.如权利要求1所述方法,其特征在于,所述步骤3具体包括:

步骤3.1,将训练集进行组合特征降维之后得到的最优特征子集作为多分类SVM分类算法的输入,选择高斯函数作为核函数,完成训练得到漏洞攻击分类模型;

步骤3.2,对测试集进行分类识别。

3.如权利要求1所述方法,其特征在于,所述步骤4具体包括:

步骤4.1,相似性度量是综合评定两个事物之间相似程度的一种度量方法,两个事物越接近,它们之间的相似性度量也就越大,反之,两个事物越疏远,它们之间的相似性度量也就越小,将分类之后的漏洞攻击与数据库中的漏洞攻击进行比较,判断是否与数据库中的内容重复,比较的对象为漏洞攻击的特征集合;

步骤4.2,当比较的特征集合长度相差小时采用杰卡德相似系数进行比较分析,假设有两个集合A和B,那么这两个集合的杰卡德相似系数为两个集合的交集元素个数在两个集合并集中所占的比例,计算公式如下:步骤4.3,当比较的特征集合长度相差大时采用余弦相似度,对于文本类型的匹配计算,属性向量A和B为文档中的词频向量,在比较的过程中余弦相似度看作是把文件长度正规化的方法,在信息检索的情况下,词频不能为负数,所以两个样本的余弦相似性范围在0到1之间,同时,两个词的频率向量之间的夹角不能超过90度。

4.如权利要求1所述方法,其特征在于,所述步骤5具体包括:

步骤5.1,检查当前漏洞攻击数据库,如果不存在则创建数据库以及对应的数据表;

步骤5.2,当数据库存在,则判断是否应该将当前的漏洞攻击存入数据库,如果在数据库中已有当前的漏洞攻击数据,则删除该数据;

步骤5.3,当数据库存在并且该数据需要存入漏洞攻击数据库时,规范数据的格式,按照数据库中的格式在数据库中新增一条数据。