知嘟嘟-专利交易平台_专利购买_专利出售-买专利,上嘟嘟

欢迎来到知嘟嘟！联系电话：13336804447 卖家免费入驻，海量在线求购！卖家免费入驻，海量在线求购！

嘟嘟会员

帮助中心网站地图

查出售查高校查求购查年费

我要发布

首页转移热力图Hot 专利交易委托购买高校专区科技服务专利求购年费查询行业资讯

联系电话：13336804447

知嘟嘟经纪人

基于KNN和AdaBoost的铁路事故类型预测方法

面议

专利号： 2021115504595

申请人：西安理工大学

专利类型：发明专利

专利状态：已下证

专利领域：计算；推算；计数

更新日期：2026-04-06

缴费截止日期：暂无

价格&联系人

年费信息

委托购买

专利简介

专利详情

委托购买说明

需准备材料

常见问题

摘要:

权利要求书:

1.基于KNN和AdaBoost的铁路事故类型预测方法，其特征在于，包括以下步骤：步骤1，对原始的铁路事故历史数据集进行稀疏性分析，根据稀疏性阈值删除部分冗余属性，稀疏性阈值为85%；

步骤2，对步骤1处理后的铁路事故历史数据集中的字符型属性，进行硬编码，将字符型属性转换为数值型属性；

步骤3，对步骤2处理后的铁路事故历史数据集，进行基于KNN算法的数据填补，填补原数据中的缺失值；

步骤4，对步骤3处理完成的铁路事故历史数据集，进行归一化操作，并按照一定比例随机划分训练集和测试集；

步骤5，将步骤4中归一化后的铁路事故历史数据集，随机划分成训练集和测试集，使用AdaBoost算法在训练集数据上训练分类器，在测试集上验证分类器性能；

步骤3中使用KNN算法对铁路事故数据进行缺失值补全，通过计算缺失型样本和其他完整样本的样本间距离，取前k最为接近的完整样本，加权平均后作为当前缺失型样本补全后的数值；

所述步骤3的具体步骤为：

步骤3.1，对每一条包含缺失值的事故记录，计算到所有完整事故记录的样本间距离d，利用KNN算法对该样本间距离进行排序，保留距离最近的前k个样本记录，作为当前缺失样本填补的依据；其中完整事故记录表示一条没有缺失值的记录，样本间距离d的计算方式如公式(1)所示：(1)

其中和分别表示第i条记录和第j条记录，在该公式中，默认左边的记录为含缺失值型记录，右边记录为完整记录，则从含缺失值记录到完整记录的样本间距离如式(1)所示，表示了两个记录在样本空间上的相似性，该距离越小则二者越为接近；

步骤3.2，根据与含缺失值记录在样本空间最近的前k个事故记录，对缺失记录进行数据填补；其中，由k个事故记录，计算得到当前缺失记录的公式如式(2)所示：(2)

其中为第i个含缺失值的事故记录，为第j个在样本空间距离上距最近的记录，如式(2)所示，经过如上计算，得到了缺失值填补后的；

所述步骤4中数据归一化公式为式(3)，

(3)

其中表示经过步骤1~3处理后的铁路事故数据集，和分别表示以列为主序计算的均值和标准差，经过式(3)的运算得到按列进行归一化后的铁路事故数据集，数据的分布符合均值为0，标准差为1的正态分布；

所述步骤5中使用AdaBoost集成学习方法建立铁路事故类型分类器，包括使用M个相同的决策树弱分类器作为弱学习器，经过加权平均得到最终的软件缺陷强分类器；

所述步骤5的训练过程具体为：

步骤5.1，将步骤4中重采样后训练集，进行十折交叉验证的划分，整个训练数据集划分成10份，每一份都将被作为验证集，在训练时使用9份数据进行训练，使用剩余的1份作为验证集检验分类器性能，重复这个过程10次，加权平均作为分类器的最终性能指标，至训练过程结束，得到训练完成的铁路事故类型分类器C，采用AdaBoost学习方法训练得到最终分类器的过程，见公式(4)、(5)、(6)：(4)

(5)

(6)

其中，为第m个决策树弱分类器的权重，为第m个决策树弱分类器，为集成学习得到的强分类器，函数用来取m个弱分类器结果加权后的正负，为第m个决策树弱分类器分类的错误率；

步骤5.2，使用步骤5.1训练完成的强分类器C，采用精确率、正确率、召回率和F1-score性能指标，在测试集上对训练完成的软件缺陷分类器进行性能检验。