1.基于代价敏感混合网络的偏斜类时间序列异常检测方法,其特征在于,首先建立深度卷积神经网络DCNN、门控递归网络GRU和代价敏感损失函数组成的代价敏感混合网络模型,其中通过所述深度卷积神经网络DCNN来学习时间序列的局部特征,通过所述门控递归网络GRU来学习时间序列的序列特征,然后将这些特征组合起来并通过Soft‑max分类器进行分类,在模型训练过程中利用代价敏感损失函数来度量输出结果与真实值之间的相似性,然后通过反向传播算法来调整网络模型的参数,针对不同数量类别的样本使用不同的惩罚因子来惩罚网络模型的错误检测,具体包含以下步骤:步骤1、将深度卷积神经网络DCNN和含有128个细胞单元的门控递归网络GRU进行集成,并引入代价敏感损失函数,构建代价敏感混合网络模型CSHN;
步骤1.1、利用由三层卷积层组成的深度卷积神经网络DCNN来学习时间序列的局部特征,每一卷积层包含卷积操作和批量归一化操作,在输出层中引入全局平均池化层,用于降低特征维度;
步骤1.2、通过门控递归网络GRU来学习时间序列的序列特征,门控递归网络GRU由更新门ps和重置门qs构成,X表示时间序列数据样本,gs表示s时刻的输出信息量, 表示s时刻的隐藏状态,在s时刻记忆单元的输入为gs‑1和X;重置门ps控制上一刻时间的输出值gs‑1流入当前时刻隐藏状态 的信息量,重置门通过激活函数一映射到[0,1]之间,隐藏状态 通过激活函数二映射到[‑1,1]的范围内,其数学表达如下:ps=σ(Kp·[gs‑1,X]) (6)其中,Kp表示重置门的权重矩阵,[gs‑1,X]表示把两个输入的向量gs‑1和X连接成一个长向量,σ为所述激活函数一;
更新门qs决定s‑1时刻输出的信息gs‑1被带入到s时刻输出信息gs的程度,更新门qs取值在[0,1]之间,值越大说明上一时刻的输出信息gs‑1被带入到当前时刻输出信息gs越少,其数学表达如下:qs=σ(Kq·[gs‑1,Xs]) (8)其中,Kq表示更新门的权重矩阵,[gs‑1,Xs]表示把两个输入的向量gs‑1和Xs连接成一个长向量,σ为所述激活函数一;
步骤1.3、在所述代价敏感混合网络模型训练过程中,利用代价敏感损失函数来度量输出结果与真实值之间的相似性,其表达式如下所示:其中,lj表示第j个训练样本的真实标签,Xj表示输入的第j个时间序列样本,σk,b(Xj)表示模型输出的概率值,K表示权重参数,b表示偏置,N表示样本的总个数;其中η,ν分别表示少数类样本和多数类样本被错误分类情况下的惩罚因子,当少数类样本被错误检测时,乘以较大的惩罚因子η,从而放大总损失;当多数类样本被错误检测的时候,乘以较小的惩罚因子ν,η,ν的计算公式如下:其中N为样本总数,nnormal_total为正常样本数,nabnormal_total为异常样本数,nclasses为样本类别,nclasses=2;
步骤2、基于代价敏感混合网络模型的偏斜类时间序列数据异常检测算法:该算法主要分为三个阶段:第一阶段为数据预处理阶段;第二阶段为时间序列的局部特征学习阶段,主要包含基于所述步骤1中深度卷积神经网络DCNN的时间序列的局部特征学习和门控递归网络GRU的时间序列的局部特征学习;第三阶段为异常检测阶段;
步骤2.1、数据预处理主要包含归一化操作和时间切片操作;
步骤2 .2、时间序列的局部特征学习:将时间序列数据中80%的数据作为训练样本输入到所述步骤1中构建的代价敏感混合网络模型
中学习时间序列的局部特征,同时使用部分训练样本进行交叉验证,在整个训练和学习过程中,采用反向传播算法来更新模型参数;特征学习的具体过程包括:基于所述步骤1中深度卷积神经网络DCNN的时间序列的局部特征学习,基于所述步骤1中门控递归网络GRU的时间序列的局部特征学习,使用Softmax分类器得到所述代价敏感混合网络模型输出的概率值进行分类,以及使用所述代价敏感损失函数来度量预测值和真实值之间的相似度进行参数更新;
步骤2.3、异常检测阶段
使用所述步骤2.2中训练好的代价敏感混合网络模型对测试数据进行检测,将时间序列数据中余下的20%数据 作为测试样本,设φ(Lr;K,b)为代价敏感混合网络模型,Lr∈Ltest_set,数学表达式为:
其中,Pnclass(Lr)为φ(Lr;K,b)的预测概率值,lr_label为预测样本的标签,为学习过程中得到的参数。
2.根据权利要求1所述的基于代价敏感混合网络的偏斜类时间序列异常检测方法,所述步骤1.1具体包含以下步骤:步骤1.1.1、卷积操作
定义 表示第d层中第u个通道与第d‑1层中第v通道之间的卷积核, 表示样本在d‑1层中第u个通道的输出值, 与 通过卷积操作来学习时间序列的局部特征:其中, 表示d层第u个通道的输出值, 表示d层第u个通道的偏执, 表示卷积操作,V表示上一层卷积核的个数;
步骤1.1.2、批量归一化操作
对于输入的时间序列样本X={x1,x2,…,xz},批量归一化操作表示为:其中, 是标准归一化值,τ是用来保证分母大于0
的常数,γ表示数据尺度变化,β表示数据偏移量, 表示批量归一化操作后的值;
步骤1.1.3、全局平均池化层
利用全局平均池化层对上一个卷积层得到的多个特征向量进行平均池化操作,得到如下结果:A={a1,a2,…,aU} (5)其中,Xu表示最后一层卷积后第u个通道的特征向量,KGAP表示全局平均池化矩阵,U表示输出特征向量的维度,A表示将每个通道输出值au组合作为最终的输出向量。
3.根据权利要求1所述的基于代价敏感混合网络的偏斜类时间序列异常检测方法,其特征在于,所述步骤1.2中激活函数一为Sigmoid激活函数,所述激活函数二为tanh激活函数;
重置门ps通过Sigmoid激活函数映射到[0,1]之间,隐藏状态 通过tanh激活函数映射到[‑1,1]的范围内,其数学表达如下:ps=σ(Kp·[gs‑1,X]) (6)其中,Kp表示重置门的权重矩阵,[gs‑1,X]表示把两个输入的向量gs‑1和X连接成一个长向量,σ为所述Sigmoid激活函数, 表示计算隐藏状态的权重。
4.根据权利要求1所述的基于代价敏感混合网络的偏斜类时间序列异常检测方法,其特征在于,所述步骤2.1的具体步骤如下:步骤2.1.1、数据归一化处理
X{tm(xm,lm)}(m=1,2,…,M)表示时间序列数据集,其中tm(xm,lm)表示时间序列样本,xm表示第m个样本的信号值,lm表示第m个样本的标签,lm的取值为0或1,M表示样本的总个数,数学表达式为:其中, 定义 表示归一化处理后的
时间序列数据集;
步骤2.1.2、时间切片
采用滑动窗口将长时间序列数据X{tm(xm,lm)}(m=1,2,…,M)分割成短的重叠片段,取一个长度为w的窗口函数window(·),其移动步长为h,将经过所述步骤2.1.1归一化处理的数据 分割成 每个片段 的长度为w,表达式如下:
其中,Lr表示第r个片段,设置w为时间序列数据的半个周期, 为片段总数,M表示样本的总个数。
5.根据权利要求1所述的基于代价敏感混合网络的偏斜类时间序列异常检测方法,所述步骤2.2的特征学习过程具体步骤如下:步骤2.2.1、深度卷积神经网络特征学习:采用基于所述步骤1中的深度卷积神经网络DCNN进行时间序列的局部特征学习,卷积网络的隐含层由三个卷积层组成,每个卷积层包含三个处理操作,具体流程如下:Conv1层:假定Conv1层有e1个大小为k1的卷积核 假定取e1=32,k1=
8,对样本Lr(Lr∈Ltrain_set)和卷积核 进行卷积运算,得到e1个长度为w‑7的特征向量 再通过BN操作和激活函数LeakyReLU,得到Conv1层的最终输出 这个过程表达如下:
其中 表示Conv1层的偏置, 表示卷积操作;
Conv2层:假定Conv2层有e2个大小为k2的卷积核 假定取e2=64,k2=5,将Conv1层得到的特征向量 与卷积核做卷积运算,卷积生成e2个长度为w‑11的特征向量 再通过BN操作和激活函数LeakyReLU,得到Conv2层的最终输出 这个过程表达如下:其中 表示Conv2层的偏置;
Conv3层:假定Conv3层有e3个大小为k3的卷积核 假定取e3=128,k3=3,则将Conv2层得到的特征向量 与卷积核 做卷积运算,卷积生成128个长度为w‑13的特征向量 再通过BN操作和激活函数LeakyReLU,得到Conv3层的最终输出 这个过程表达如下:其中 表示Conv3层的偏置;
GAP层:对于Conv3层输出的特征向量 使用与 维度相同的卷积核KGAP与做卷积运算,生成一个128维的特征向量
其中 表示深度卷积神经网络最终学习到的特征向量 的每一个分量值;
步骤2.2.2、门控递归网络特征学习:对于输入的时间序列数据集Lr(Lr∈Ltrain_set),使用含有128个细胞的门控递归网络GRU学习序列特征,得到门控递归网络最终输出的特征向量其中Kp和Kq分别表示重置门和更新门的权重矩阵,FGRU表示GRU网络的映射函数;
步骤2.2.3、代价敏感混合网络模型的输出:对于输入的时间序列样本Lr(Lr∈Ltrain_set),代价敏感混合网络模型最终使用Softmax分类器输出概率值Pnclass(Lr),这里nclass=0,1,设nclass=0表示Lr属于多数类,nclass=1表示Lr属于少数类,这个过程表达如下:其中 表示卷积网络输出的特征向量, 表示GRU网络输出的特征向量,函数concat(·)将特征向量 和 拼接为一个长向量;
步骤2.2.4、利用代价敏感损失函数进行参数更新:对于所述步骤2.2.3中得到的代价敏感混合网络模型CSHM输出的概率值,通过所述步骤1.3中的代价敏感损失函数公式(11)来度量预测值和真实值之间的相似度,其中权重 偏置 采用学习率为0.001,每200个片段下降梯度的机制,使用40%的训练样本进行交叉验证,通过Adam优化算法的反向传播机制对权重K和偏置b进行更新;
最后的权重K和偏差b与惩罚因子η、ν相关,当少数类样本被错误检测时,使用相对较大的惩罚因子η来扩大总损失;当多数类样本被误检测时,使用相对较小的惩罚因子ν来控制总损失的增加;
将提出的代价敏感损失函数推广到多分类的情况,其中多类偏斜数据样本的惩罚因子如式(28)所示:其中,nc_total是第c类的样本总数,ηc对应第c类的惩罚因子,c={1,2,…,nclasses}。