1.基于特征矩阵决策树的时间序列特征识别与分解方法,其特征在于,包括:
100.数据预处理:对样本数据进行数据清洗、数据集成与数据归约;
200.确定样本周期:将筛选得到的特征值按特定周期每间隔一定数量进行数据筛选和分组,分组方法是对时序特征量进行傅里叶变换,获得强度频谱,找出最大的频率分量,将其倒数确定为周期;
300.特征选择与提取,采用结合顺序向前特征选择算法和K-means聚类算法评价特征子集并确定最优特征子集来完成特征选择,然后在所选择的样本特征中,提取辨识度高特征;
400.建立多元时间序列特征识别与分解模型。
2.如权利要求1所述的方法,其特征在于,步骤100中所述的数据预处理中数据清洗的方法为Grubbs法,具体地,通过判断样本数据中的“可疑值”,计算偏离值确定“可疑值”,并计算Gi值,通过查找Grubbs表,将Gi与Grubbs表给出的临界值GP(n)比较,若Gi值大于表中的临界值GP(n),则判断该测量数据是异常值。
3.如权利要求1所述的方法,其特征在于,步骤100中所述的数据预处理中数据集成的方法为相关系数法。
4.如权利要求1所述的方法,其特征在于,步骤100中所述的数据预处理中数据归约的方法为回归分析法。
5.如权利要求1所述的方法,其特征在于,步骤300的具体过程为:
310.根据顺序向前特征选择算法来确定最优特征子集,设已选入了k个特征构成了一个大小为k的特征组Xk,把未选入的d-k个特征Xj,j=1,2,3,...,d-k,按与已入选特征组合后的J值大小排列;顺序向前特征选择算法由空特征集开始,在其后的每一次循环中,选择原特征集中最好的特征,并将它添加到该集合中,直到特征数增加到m为止;
320.采用K-means聚类算法对不同类样本间特征的分开程度进行评价,给定样本集K,K-means算法将样本集分割为K各簇,每个聚类中心是簇中样本的均值;然后将其余对象根据其与各个簇中所有样本的距离分配到最近的簇,再要求新的簇的中心,这个迭代定位过程不断重复,使得每个簇中所有样本与中心的距离总和最小,直到目标函数最小化,从而选择出最优特征;
330.基于时序特征选择算法进行特征提取,计算样本数据的特征值,剔除样本数据中的无效周期,选取具有可行性的15个周期数据作为样本数据,通过计算这15个周期数据的特征值,通过特征值分类,提取得到辨识度最高的特征。
6.如权利要求1所述的方法,其特征在于,步骤400中包括以下子步骤:
410.基于C4.5决策树分类算法,认为每个特征都自成一类,相当于决策树中的叶节点,通过自顶向下的递归方式,在决策树的内部节点进行属性值(即样本特征参数)的比较并根据不同的属性值判断从该节点向下的分支的方式进行分类,直到每个类别只含有唯一结果即叶纯净为止,根据得到的最优特征参数进行识别与分解,判断出该特征参数所属类别;
420.引入改进后的滑动窗双边CUSUM事件检测算法将时间序列分段,通过事件检测程序在每一个采样点不停地追踪特征参数的变化。通过在整个时间序列中检测某个特征参数是否改变,从而实现时间序列中特征的识别,继而判断当前时刻特征值组的时间所处时间序列时刻,再进行特征分解,即得到当前数据的当前时刻是处于某类数据的某种状态;
430.基于时间序列建立类别特征矩阵,通过训练样本对数据的特征值取均值,并对其求标准差作为波动水平,引入类别特征矩阵决策树,建立时序特征概率模型,从而确立当前多元时序特征的最优解,最终实现特征的自动识别与分解。