1.一种大规模高维高速流数据在线异常检测的方法,其特征在于,包括:获取高速传输的正常数据块,将正常数据块中的数据输入到在线异常检测模型中进行训练;将待测样本数据输入到训练好的在线异常检测模型,判断待测样本数据是否为正常数据;若为正常数据,则将该数据进行更新,生成新的正常数据块,并作为下次数据异常检测的训练数据;若为异常数据,则对该数据进行标记;所述在线异常检测模型包括改进的矩阵素描模型、哈希学习模型以及异常分计算模型。
2.根据权利要求1所述的一种大规模高维高速流数据在线异常检测的方法,其特征在于,将待测样本数据输入到训练好的在线异常检测模型进行检测的过程包括:S1:将正常数据块中的数据输入到改进的矩阵素描模型中,得到素描矩阵;
S2:将素描矩阵输入到哈希学习模型中,通过哈希目标函数对素描矩阵进行优化,得到*
最优模型参数Wt;根据最优模型参数得到哈希投影矩阵;
S3:采用哈希投影矩阵对素描矩阵进行映射,得到特征哈希表Ht;
S4:获取待检测样本数据;
S5:将待检测数据和输入到异常分计算模型中,判断该数据是否为异常数据。
3.根据权利要求2所述的一种大规模高维高速流数据在线异常检测的方法,其特征在于,采用改进的矩阵素描模型对正常数据块中的数据进行处理的过程包括:S11:根据正常数据块中的数据构建数据矩阵Z,选取精度参数ε;其中,数据矩阵表示一个d×l的实数空间;
S12:根据数据矩阵Z设置迭代次数;
S13:根据精度参数ε初始化一个d×l的全零矩阵,其中B=[b1,b2,…,bi,…bl];
S14:将数据矩阵Z的第i列数据替换全零矩阵B的最后一列,构成新的矩阵T;其中,i∈
1,2,...,n;
S15:对新的矩阵T进行奇异值分解,得到新矩阵的奇异值、矩阵T的左奇异矩阵U以及矩阵T的对角矩阵∑;
S16:选取矩阵T的最小奇异值δ,根据最小奇异值对矩阵T的对角矩阵进行扫描更新;
S17:根据更新后的对角矩阵 以及左奇异矩阵U构建更新素描矩阵B;将i的值加1;
S18:判断此时i和迭代次数的大小,若i大于设置的迭代次数,则输出此时的是素描矩阵B,否则返回步骤S14。
4.根据权利要求2所述的一种大规模高维高速流数据在线异常检测的方法,其特征在于,采用哈希学习模型对素描矩阵进行处理的过程包括:采用哈希投影分方法分别对素描矩阵中的各列数据进行处理,得到各列数据的哈希投影向量;根据哈希投影向量以及素描*
矩阵,得到最优模型参数Wt ,该模型的最优参数为哈希目标函数优化的最大目标函数,根据最大目标函数得到投影矩阵。
5.根据权利要求4所述的一种大规模高维高速流数据在线异常检测的方法,其特征在于,最优模型参数的公式为:
其中, 表示一个d×r的实数空间,Bt表示素描矩阵,Wt表示投影矩阵,T表示转置,tr(·)表示矩阵的迹,Ir表示一个r×r的单位矩阵。
6.根据权利要求2所述的一种大规模高维高速流数据在线异常检测的方法,其特征在于,根据哈希投影矩阵得到特征哈希表的公式为:T
Ht=sgn(WtBt)
其中,sgn(·)表示符号函数,Wt表示哈希投影矩阵,T表示转置,Bt表示素描矩阵。
7.根据权利要求2所述的一种大规模高维高速流数据在线异常检测的方法,其特征在于,采用异常分计算模型对处理后的待检测样本数据的过程包括:步骤1:将处理后的待检测样本数据矩阵和正常样本特征哈希表、哈希投影矩阵输入到异常分计算模型中;
步骤2:设置阈值参数ζ;
步骤3:根据哈希投影矩阵对待检测样本数据矩阵中的各列数据xi进行二值哈希编码其中i∈1,2,...,n;
步骤4:从正常样本特征哈希表中寻找二值哈希编码 的K个最近邻哈希编码步骤5:计算二值哈希编码 与K个最近邻哈希编码 之间汉明距离的平均值ai;
步骤6:判断平均值ai与设置的阈值参数ζ的大小,若ai≤ζ,则该列数据为正常数据;否则该列数据为异常数据;
步骤7:确定待检测样本中的数据是否检测完,若检测完成,则将所有的异常数据进行集合标记,输出正常数据;若未检测完,则返回步骤3。
8.根据权利要求7所述的一种大规模高维高速流数据在线异常检测的方法,其特征在于,二值哈希编码与最近邻哈希编码 的汉明距离平均值的公式为:其中,K表示用户设定的最近邻哈希编码个数, 表示 与 之间的汉明距离。
9.根据权利要求1所述的一种大规模高维高速流数据在线异常检测的方法,其特征在于,对数据进行更新的过程包括:将得到的正常数据转化为数据矩阵;采用基于线性哈希投影方法将矩阵素描模型得到的素描矩阵映射到二值汉明空间中,得到更新后的哈希投影矩阵;将数据矩阵和素描素描矩阵进行打包,形成新的正常数据块。
10.一种大规模高维高速流数据在线异常检测系统,其特征在于,该系统包括:数据采集模块、矩阵素描模块、哈希学习模块、异常判断模块、判断结果输出模块以及模型更新模块;
所述数据采集模块用于采集数据,并将采集的数据输入到矩阵素描模块中;
所述矩阵素描模块用于对大规模高维高速流数据进行矩阵素描,生成素描矩阵;
所述哈希学习模块用于将素描矩阵中的数据映射到汉明空间,生成哈希投影矩阵和特征哈希表;
所述异常判断模块根据哈希投影矩阵和特征哈希表计算待测数据的异常分,将计算出异常分与设置的异常阈值进行比较,得到待检测数据的检测结果;
所述判断结果输出模块用于输出检测结果;
所述模型更新模块根据待检测数据的检测结果对模型的数据属性和分布特点进行更新。