欢迎来到知嘟嘟! 联系电话:13336804447 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13336804447
知嘟嘟经纪人
收藏
专利号: 2021115504595
申请人: 西安理工大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2026-04-06
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.基于KNN和AdaBoost的铁路事故类型预测方法,其特征在于,包括以下步骤:步骤1,对原始的铁路事故历史数据集进行稀疏性分析,根据稀疏性阈值删除部分冗余属性,稀疏性阈值为85%;

步骤2,对步骤1处理后的铁路事故历史数据集中的字符型属性,进行硬编码,将字符型属性转换为数值型属性;

步骤3,对步骤2处理后的铁路事故历史数据集,进行基于KNN算法的数据填补,填补原数据中的缺失值;

步骤4,对步骤3处理完成的铁路事故历史数据集,进行归一化操作,并按照一定比例随机划分训练集和测试集;

步骤5,将步骤4中归一化后的铁路事故历史数据集,随机划分成训练集和测试集,使用AdaBoost算法在训练集数据上训练分类器,在测试集上验证分类器性能;

步骤3中使用KNN算法对铁路事故数据进行缺失值补全,通过计算缺失型样本和其他完整样本的样本间距离,取前k最为接近的完整样本,加权平均后作为当前缺失型样本补全后的数值;

所述步骤3的具体步骤为:

步骤3.1,对每一条包含缺失值的事故记录,计算到所有完整事故记录的样本间距离d,利用KNN算法对该样本间距离进行排序,保留距离最近的前k个样本记录,作为当前缺失样本填补的依据;其中完整事故记录表示一条没有缺失值的记录,样本间距离d的计算方式如公式(1)所示:(1)

其中和分别表示第i条记录和第j条记录,在该公式中,默认左边的记录为含缺失值型记录,右边记录为完整记录,则从含缺失值记录到完整记录的样本间距离如式(1)所示,表示了两个记录在样本空间上的相似性,该距离越小则二者越为接近;

步骤3.2,根据与含缺失值记录在样本空间最近的前k个事故记录,对缺失记录进行数据填补;其中,由k个事故记录,计算得到当前缺失记录的公式如式(2)所示:(2)

其中为第i个含缺失值的事故记录,为第j个在样本空间距离上距最近的记录,如式(2)所示,经过如上计算,得到了缺失值填补后的;

所述步骤4中数据归一化公式为式(3),

(3)

其中表示经过步骤1~3处理后的铁路事故数据集,和分别表示以列为主序计算的均值和标准差,经过式(3)的运算得到按列进行归一化后的铁路事故数据集,数据的分布符合均值为0,标准差为1的正态分布;

所述步骤5中使用AdaBoost集成学习方法建立铁路事故类型分类器,包括使用M个相同的决策树弱分类器作为弱学习器,经过加权平均得到最终的软件缺陷强分类器;

所述步骤5的训练过程具体为:

步骤5.1,将步骤4中重采样后训练集,进行十折交叉验证的划分,整个训练数据集划分成10份,每一份都将被作为验证集,在训练时使用9份数据进行训练,使用剩余的1份作为验证集检验分类器性能,重复这个过程10次,加权平均作为分类器的最终性能指标,至训练过程结束,得到训练完成的铁路事故类型分类器C,采用AdaBoost学习方法训练得到最终分类器的过程,见公式(4)、(5)、(6):(4)

(5)

(6)

其中,为第m个决策树弱分类器的权重,为第m个决策树弱分类器,为集成学习得到的强分类器,函数用来取m个弱分类器结果加权后的正负,为第m个决策树弱分类器分类的错误率;

步骤5.2,使用步骤5.1训练完成的强分类器C,采用精确率、正确率、召回率和F1-score性能指标,在测试集上对训练完成的软件缺陷分类器进行性能检验。