欢迎来到知嘟嘟! 联系电话:13336804447 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13336804447
知嘟嘟经纪人
收藏
专利号: 2022113120330
申请人: 杭州电子科技大学
专利类型:发明专利
专利状态:已下证
专利领域: 测量;测试
更新日期:2026-03-20
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种供水管网异常数据检测方法,其特征在于包括如下步骤:步骤1,基于正常工况聚类的监测点合理分组;

S1.1,对覆盖整个供水管网的监测点,按邻近原则划分成1组、2组、…、N/2组,N为测点数,若N为奇数则对N/2向下取整,共有L种分组方式;

每种分组下,针对测点组所包括的正常的流量与压力数据,进行k‑means聚类,得到测点组的聚类结果;

在k‑means聚类时,其聚类类别数量k值的选取按照手肘法选取,手肘法的核心指标是误差平方和SSE;

计算多个k值下的SSE,以X轴为聚类类别数量k值,Y轴为SSE值,绘制曲线图即得到肘形图,选取肘部对应的k值作为聚类类别数量;

S1.2,计算分组的分离性指标ε,其计算如式(4)

其中,Dpq表示类p与类q聚类中心之间的欧氏距离,按式(5)计算,dp与dq表示类p与类q的类内距;

其中,m表示聚类中心点的维度,Cpt和Cqt分别表示第p个类中心和第q个类中心的第t个属性;

类内距σ为各类中样本点到聚类中心距离的标准差,按式(6)计算:其中,N表示同一类别中样本点到聚类中心的距离数量总数,xe表示样本点e到该类中心的距离,μ表示所有距离值的平均值,按式(7)计算:取所有分离性指标的均值作为分组方式下聚类的分离性指标ε(l)′,其计算方式如式(8)其中,εo表示该分组第o个分离性指标,o∈[1,U],U表示该分组方式下共有U个分离性指标;

S1.3,计算分组方式的轮廓系数S(l)′,轮廓系数的具体计算过程如下:S1.3.1,对某一类别中的样本点w,计算该点与同一类别中所有其它元素的距离,再取距离的平均值,记作a(w),表示类内的凝聚度;

S1.3.2,另取样本点w所属类外的一个类,计算样本点w与该类中所有样本点的距离,再求距离的平均值,遍历所有其它类别,找到距离最近的类别,并将点w到该类别所有样本点距离的平均值记作b(w),表示类间的分离度;

S1.3.3,对于样本点w,其轮廓系数计算公式如下

S1.3.4,计算所有样本点的轮廓系数,求所有轮廓系数的平均值,即为该分组方式的轮廓系数S(l)′;

S1.4,得到各个分组方式下的分离性指标和轮廓系数,绘制以分离性指标和轮廓系数为Y轴、监测点数量为X轴的双轴显示折线图,根据两个指标的折线交点选出合理的邻近监测点分组方式,确定测点合理分组;

步骤2,在步骤1基于正常工况聚类的监测点合理分组的基础上,计算组内所有样本到其类中心的欧式距离值;

得到所有欧式距离值后,按测点组组别i和聚类类别j标记欧式距离值Disij,记为Distance;

步骤3,采用箱型图确定各测点组内每类的判异阈值,并对所有样本数据进行检验;

利用箱型图分析合理分组后的欧式距离数据Distance,得到每个测点组中所有类别的箱型图参数,正常数据判断阈值区间即为箱型图上限到箱型图下限,记为[min,max];

根据测点组分组情况,将所有样本数据按测点划分至对应的组别,再计算所有样本数据到所属类中心的欧式距离;根据欧式距离的远近,将样本数据划分至欧式距离最近的类别,按测点组组别i和聚类类别j标记欧式距离值disij,记为disiance;

将disij中的欧式距离值与对应的判异阈值区间[maxij,minij]对比,在区间外即为异常;

再根据检验结果得到混淆矩阵,并计算检测准确率;

步骤4,实际异常数据检测;

针对监测点当前采样得到的节点流量压力数据;

S4.1,按测点分组,构建各测点组当前样本;

S4.2,各测点组当前样本,计算到本组内各类中心距离,划入本组内距离最近的某一类s,记录类内距dis′rs;

S4.3,各测点组当前样本,其类内距dis′rs中的距离值与所属类的判异阈值区间[maxij,minij]比较,若在区间内则为正常,反之则为异常;

各组当前样本全部检测完毕,完成当前采样数据的检异。

2.根据权利要求1所述的一种供水管网异常数据检测方法,其特征在于:步骤1中所述的k‑means聚类,具体流程如下:给定一个数据集X,该数据集中包含n个样本点,且每个样本点的维度均是m维,即:X={X1,X2,X3,…,Xn};

S1.1.1,首先在数据集X中随机选择k个样本点D={D1,D2,D3,…,Dk},作为初始化类中心,计算各个样本点Xi到所有各聚类中心的的欧氏距离,计算公式为式(2);

Xa表示第a个样本点,a∈[1,n],Db表示第b个聚类中心,b∈[1,k],Xat表示第a个样本点的第t个属性,t∈[1,m],Dbt表示第b个聚类中心的第t个属性;

S1.1.2,比较每个样本到各个聚类中心的距离,找到距离最小的类中心,将该样本点划分至距离最近的聚类中心所在的类别,得到k个类别的数据集合{F1,F2,F3,…,Fk};

S1.1.3,根据S1.1.2中所划分的类别,计算每个类别的中心点,作为新的聚类中心,聚类中心的计算公式为式(3):其中,Cg表示第g个聚类中心,g∈[1,k],Fg表示第g个类别,Ng表示Fg中包含样本点的个数,Xh表示Fg中第g个样本点,h∈[1,Ng];

S1.1.4,迭代S1.1.2、S1.1.3两步,直至聚类中心不再发生改变为止。

3.根据权利要求1所述的一种供水管网异常数据检测方法,其特征在于:步骤3中所述箱型图参数的计算过程如下:S3.1,计算距离数据上四分位数Q3和下四分位数Q1,距离数据共有v个,对这v个数据按照从小到大排序,Q3为第T1个位置上的数,Q1为第T2个位置上的数,其中T1与T2的计算公式如式(11)与式(12)S3.2,计算四分位间距IQR,如式(13)

IQR=Q3‑Q1                          (13)S3.3,计算上限Max与下限Min,计算方法分别如式(14)与式(15)Max=Q1+W*IQR                      (14)Min=Q3‑W*IQR                      (15)其中,W为四分位间距IQR的权重系数。

4.根据权利要求1或3所述的一种供水管网异常数据检测方法,其特征在于:步骤3中所述准确率未达到95%,则对该测点组各类别的判异阈值区间进行调整,小幅调整式(14)与式(15)中IQR前面的权重系数W;在进行小幅度调整后,再做所有样本数据检验,若准确率仍不达标,则继续调整直至达标。

5.根据权利要求4所述的一种供水管网异常数据检测方法,其特征在于:所述权重系数W缺省值为1.5。