1.一种基于稀有类挖掘的冲击危险性等级判别方法,其特征在于,包括如下步骤:步骤1,获取采场运行过程的采动数据,对采动数据进行向量化处理,通过对采动数据分组得到多个采动数据记录序列,提取各采动数据记录序列中的特征参数,构建特征向量;
步骤2,利用特征向量生成整体数据集,基于具有先验知识的稀有类型数据挖掘算法CLOVER对整体数据集进行稀有类型检测,获取各种子数据的冲击危险性等级,并利用带有冲击危险性等级标签的种子数据作为训练数据,形成训练集;
步骤3,基于深度学习方法构建冲击危险性等级检测模型,利用训练集训练冲击危险性等级检测模型挖掘训练数据学习生成冲击危险性等级标签,并将冲击危险性等级标签标记在所输入的种子数据上,得到被标记有冲击危险性等级标签的冲击危险性数据,形成冲击危险性数据集;
步骤4,基于文本分类算法TextCNN构建冲击危险性等级判别模型,用于判别采动数据的冲击危险性等级,将冲击危险性数据集中的冲击危险性数据作为训练数据,对冲击危险性等级判别模型进行训练,利用训练后的冲击危险性等级判别模型判别新采集采动数据的冲击危险性等级;
所述步骤1中,具体包括以下步骤:
步骤1.1,获取采场运行过程的采动数据,设置时间窗的时长,基于时间窗对采动数据进行分组,将采动数据划分为多个采动数据记录序列;
所述采动数据用于反映采场运行过程中的地质信息、采掘信息、围岩动态监测信息和支护工况信息,采动数据包括多个指标参数值,所述指标参数包括煤层厚度、煤层倾角、支架型式、支护阻力、微震能量、钻孔应力、老顶初次来压步距和老顶周期来压步距;
步骤1.2,分别针对各采动数据记录序列,将采动数据记录序列内的各指标参数值统一至同一时间点处,得到处理后的采动数据记录序列;
步骤1.3,根据处理后的各采动数据记录序列,获取各指标参数值在所有处理后采动数据记录序列中出现的频率,确定各指标参数用于向量化的权重因子,如公式(1)所示: (1)
式中,idf(·)为指标参数用于向量化的权重因子,e为指标参数值,T为采动数据记录序列的总数,num为指标值在所有采动数据记录序列中出现的频次;
步骤1.4,根据各指标参数的权重因子,人工选取指标参数作为特征参数,根据所选特征参数的数量确定特征向量的维度,构建特征向量,特征向量中各维度内的各特征值,如公式(2)所示: (2)
式中,weight为特征值;l为用于表示指标参数是否被选取为特征参数的系数,l取值为
0或1,当l=0时,表示指标参数被选取为特征参数,当l=1时,表示指标参数未被选取为特征参数;norm(·)为标准化函数;m为用于表示指标参数是否被格外关注,m取值为0或1,当m=0时,表示指标参数被格外关注,当m=1时,表示指标参数未被格外关注;
所述步骤2中,具体包括以下步骤:
步骤2.1,根据特征向量中各维度内的各特征值构建整体数据集,设置稀有类型检测的检测次数和标签数量,构建整体数据集的K近邻图;
步骤2.2,基于具有先验知识的稀有类型数据挖掘算法CLOVER对整体数据集进行稀有类型检测;
确定K近邻图中各数据点的局部变更度值LVD,在K近邻图中选取局部变更度值LVD最大的数据点作为最大局部变更度数据记录DlvdMax,判断最大局部变更度数据记录DlvdMax是否与冲击危险性相关,若最大局部变更度数据记录DlvdMax与冲击危险性相关,则将最大局部变更度数据记录DlvdMax作为用于异常数据挖掘的种子数据,若最大局部变更度数据记录DlvdMax与冲击危险性无关,则忽略最大局部变更度数据记录DlvdMax;
步骤2.3,根据K近邻图中各数据点的连接关系,利用最大局部变更度数据记录DlvdMax的所有相邻数据点构建数据记录集E,将数据记录集E中所有数据点的局部变更度值LVD均设置为‑1;
步骤2.4,对数据记录集E中所有数据点人工设置冲击危险性等级标签,获取当前的人工贴标量,若当前的人工贴标量未达到预设的标签数量,则返回步骤2.2中,继续对整体数据集进行稀有类型检测,否则,则进入步骤2.5中;
步骤2.5,结束对整体数据集的稀有类型检测,将稀有类型检测所获取的带有冲击危险性等级标签的种子数据作为训练数据,形成用于深度学习的训练集。
2.根据权利要求1所述的基于稀有类挖掘的冲击危险性等级判别方法,其特征在于,所述K近邻图中数据点的局部变更度值计算公式为: (3)
其中,
(4)
(5)
式中, 为数据点的局部变更度值, 为数据点的变更值, 为数据点的孤立值,、均为K近邻图中数据点的名称, 为稀有类型检测的检测次数, 为数据点的相邻数据点所构成的近邻集合, 为最小距离求取函数, 为数据点的 个相邻数据点所构成的集合, 为数据点距离第 个相邻数据点的距离, 为整体数据集, 为最大距离求取函数。
3.根据权利要求2所述的基于稀有类挖掘的冲击危险性等级判别方法,其特征在于,所述步骤3中,具体包括以下步骤:步骤3.1,基于深度学习方法构建用于冲击危险性数据挖掘的冲击危险性等级检测模型,所述冲击危险性等级检测模型包括输入层、卷积层和输出层;
步骤3.2,利用训练集中的训练数据训练冲击危险性等级检测模型;
将训练集中的N个训练数据依次输入至冲击危险性等级检测模型的输入层中,所述输入层分别获取各训练数据中的种子数据和冲击危险性等级标签,并将训练数据输入至卷积层中;
所述卷积层具有非线性映射的能力,用于卷积处理提取训练数据中的有利信息,各训练数据经过卷积层处理后得到卷积映射结果,将各训练数据的卷积映射结果作为迭代优化函数的学习特征,对迭代优化函数进行优化,并利用迭代优化函数进行聚类并生成冲击危险性等级标签,预测得到种子数据的冲击危险性等级标签并标记在种子数据上,通过所述输出层输出预测的冲击危险性等级标签;
步骤3.3,确定训练后的冲击危险性等级检测模型,利用训练后的冲击危险性等级检测模型挖掘剩余数据用于为采场数据标记冲击危险性数据,得到被标记有冲击危险性等级标签的冲击危险性数据,形成冲击危险性数据集。
4.根据权利要求3所述的基于稀有类挖掘的冲击危险性等级判别方法,其特征在于,所述步骤3中,冲击危险性等级检测模型的迭代优化函数为: (6)
式中,为训练数据的序号, 为第 个训练数据中的种子数据, 为第 个训练数据的冲击危险性等级标签,为稀有类型检测的类别数, 为种子数据的卷积映射结果,为学习矩阵,学习矩阵 的尺寸为 ,为各批次输入的数据个数; 为训练数据的总数, 为实数集。
5.根据权利要求4所述的基于稀有类挖掘的冲击危险性等级判别方法,其特征在于,所述步骤4中,具体包括以下步骤:步骤4.1,基于文本分类算法TextCNN构建冲击危险性等级判别模型;
所述冲击危险性等级判别模型包括输入层、卷积层、池化层和输出层,所述卷积层内设置有三种不同宽度的卷积核,用于对输入层内输入的冲击危险性数据进行卷积并生成特征映射,各卷积核内均设置有两种滤波器,各滤波器计算后得到一个从冲击危险性数据中所提取特征的列向量;所述池化层采用最大池对各特征图处理;所述输出层利用softmax函数处理用于获取冲击危险性数据最终的冲击危险性等级;
步骤4.2,将冲击危险性数据集作为训练冲击危险性等级判别模型所采用的训练集,冲击危险性数据集内挖掘得到的被标记有冲击危险性等级标签的冲击危险性数据作为训练数据,经输入层输入冲击危险性等级判别模型中,同时,获取采场运行过程中新产生的采动数据,重复步骤1,将新采集的采动数据经向量化处理转化为特征向量,对各特征向量进行特征嵌入,转化成维度为 的特征表示后与 个嵌入向量拼接形成输入数据,构建输入数据模型 ,输入数据模型 ;
步骤4.3,输入数据经输入层卷积层中,基于文本分类算法TextCNN卷积层中仅使用一维卷积,卷积核从上到下滑动进行特征抽取,设置卷积核的宽度与嵌入向量的维数相一致,卷积核的滑动窗口卷积计算结果,如公式(8)所示: (8)
式中, 为卷积核的滑动窗口卷积计算结果, 为输入数据模型中从 行到行的子矩阵,为输入数据模型的行数, 为卷积核,卷积核 的维度为 ,为卷积核的宽度,为偏置项, 为激活函数;
利用卷积核在输入数据 上滑行进行卷积计算,得到特征图
;
在池化层中对特征图进行最大池化处理,得到多个卷积核的池化结果 ,池化结果, 为卷积核的数量;
所述各卷积核所采用的处理公式均为:
(9)
式中, 为特征图 内的主要特征;
步骤4.4,所述输出层内构建有全连接层,采用softmax激活函数判别新采集采动数据的冲击危险性等级,确定新采集采动数据的冲击危险性等级,并从输出层中输出;
所述输出层中采动数据的冲击危险性等级判别公式为:
(10)
式中,为采动数据的冲击危险性等级,为dropout层的处理结果, 为权重。