欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2019104865342
申请人: 重庆邮电大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2025-02-08
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于大数据的工业蒸汽量预测方法,其特征在于,包括以下步骤:

101.获取锅炉的工况数据,并对锅炉的工况数据先后进行缺失值处理、异常值处理和对非对称分布的处于偏斜状态的数据进行偏态修正三个数据预处理操作;

102.采用以区间覆盖为基础的自助法,根据工况数据的采集时间划分训练集数据、验证集数据,并对锅炉工况数据进行特征工程操作;

103.建立多个机器学习模型,并采用基于Filter和线性加权的瀑布融合法进行模型融合操作;

104.通过步骤103建立的融合模型,根据锅炉传感器采集的工况数据对锅炉产生的蒸汽量进行预测,利用预测的蒸汽量求得锅炉的燃烧效率运用在工业生产上。

2.根据权利要求1所述的一种基于大数据的工业蒸汽量预测方法,其特征在于,所述步骤101对锅炉传感器每分钟采集的工况数据进行异常值处理的具体步骤为:

1011.对异常值处理:基于拉依达方法,对近似正态分布的数据中的异常值进行剔除,采集数据中只含有随机误差,对其进行计算处理得到标准偏差,按概率确定区间,超过这个区间的误差已不属于随机误差而是粗大误差,含有该误差的数据应予以剔除;

独立得到x1,x2,...,xn等样本值,n表示样本数,计算出算术平均值μ及剩余误差vi(i=

1,2,...,n),并按贝塞尔公式计算出标准偏差σ,若某个测量值xt的剩余误差vt(1≤t≤n),满足下式:则认为xt是含有粗大误差值的坏值,应予剔除,λ表示0到1之间的任意实数,用来增大数据容忍程度。

3.根据权利要求1所述的一种基于大数据的工业蒸汽量预测方法,其特征在于,所述步骤101对非对称分布的处于偏斜状态的数据进行偏态修正具体包括:偏态分布是与正态分布相对、分布曲线左右不对称的分布,对偏态分布数据转换为进行操作,使其转换为正态分布数据,这样样本均值和方差则相互独立;

对于正偏态的数据进行取对数或取平方根操作,进行这样的变换将大的数据向左移动,使数据接近正态分布,负偏态数据的情况取相反数转化为右偏的情况;

为了凸显方差和偏态的相似性,定义偏度系数计算公式如下:

其中,μ为偏态数据的算术平均值,σ为偏态数据的标准差。当偏度系数大于0时,则为正偏态,这时对数据进行取对数操作;当偏度系数小于0时,则为负偏态,这时对数据取相反数后再取对数。

4.根据权利要求1所述的一种基于大数据的工业蒸汽量预测方法,其特征在于,所述步骤101缺失值处理是基于时间加权的缺失值处理:对于存在缺失值的属性列,使用如下公式对其值进行填充:x(0)=0.2x(10)+0.3x(5)+0.5x(1)      公式(3)

其中,x(0)表示属性列缺失值,x(10)表示十分钟前的属性列值,x(5)表示五分钟前的属性列值,x(1)表示一分钟前的属性列值。

5.根据权利要求1-4之一所述的一种基于大数据的工业蒸汽量预测方法,其特征在于,所述步骤102根据锅炉传感器对工况数据的采集时间划分训练集数据、验证集数据具体步骤为:采用以区间覆盖为基础的自助法划分训练集数据和验证集数据,在锅炉传感器以每分钟为单位采集的7天的工况数据中,将每两个小时作为一个小区间,这样7天168个小时可以划分为84个小区间,在这些小区间Di中进行采样产生Di′:Di′表示从Di中随机且有放回地采样得到的数据集。每次随机从Di中挑选一个样本,并将其拷贝一份放入Di′中,保持Di不变,重复以上过程m次,Di中有部分样本会多次出现在Di′,而另一部分不会出现;

将∑Di'当作训练集,将∑(Di'\Di)当作验证集。

6.根据权利要求5所述的一种基于大数据的工业蒸汽量预测方法,其特征在于,所述步骤103建立多个机器学习模型,并基于Filter和线性加权的瀑布融合法进行模型融合操作的具体步骤为:采用将多个模型串联的方法,将每个基模型视为一个过滤器,将不同粒度的过滤器进行前后衔接,对于样本集近似于正态分布的数据,基模型的选择中保证线性与非线性相结合,线性模型选择Lasso回归模型、线性的Kernel ridge regression模型和使用L1和L2先验作为正则化矩阵的模型ElasticNet,另外三个非线性基模型选择分别为基于多项式的Kernel ridge regression模型、SVR模型和Xgboost模型;

在基于Filter和线性加权的瀑布融合法中,前一个模型过滤的结果,将作为后一个模型的候选集合输入,模型共三层,每一层基模型的顺序为线性模型在前,非线性模型在后,最后对非线性模型的输出结果进行线性加权,得到最终的融合模型。

7.根据权利要求6所述的一种基于大数据的工业蒸汽量预测方法,其特征在于,当Xgboost模型的权重为0.76,多项式的Kernel ridge regression模型的权重为0.12,SVR模型的权重为0.12,利用最终的融合模型根据锅炉传感器采集的工况数据对锅炉产生的蒸汽量进行预测。

8.根据权利要求6所述的一种基于大数据的工业蒸汽量预测方法,其特征在于,所述对训练集和测试集进行特征工程构建具体包括:对锅炉工况数据构建基础统计特征、模块特征、外部特征和时序特征;

1031.基础统计特征:对锅炉床温、床压、湿度,炉膛温度、膛压、湿度以及过热器的温度、压强、湿度以每小时为单位区间进行求均值和求众数的操作,之后再对所求出的均值和众数再取平均,将其作为特征,同时,利用公式(4)将锅炉的额定功率及实际功率通过物理运算提特征,直接将ratio值作为特征列;

1032.模块特征:将特征工程模块化,将其分为炉膛、锅炉床、锅炉风口、主蒸汽四个模块,分别研究每个模块内的温度、湿度和压力值,按照锅炉传感器以分钟为单位采集的各种锅炉工况数据,分别在模块内提取特征,提取特征的方法为在模块内部对每分钟的温度、湿度和压强求方差,通过模块内部的数据的波动来构建模块特征;

1033.外部特征:通过对当地气候的查询,获得训练集和测试集当天的气温、空气湿度、风速以及阳光强度这些外部数据;将这些外部数据同样以每分钟为单位进行统计加入到特征工程中,在加入这些离散型数据特征时,使用FP-growth算法来挖掘频繁项集,找出已给的多条数据记录中哪些项是频繁一起出现的;

1034.时序特征:对一天内某一时段的蒸汽量进行预测,时间是特征工程中不可或缺的一部分;针对时间的字段,统计当前时刻与温度峰值、压强峰值和湿度峰值时刻的时间差值,直接将其当做连续值特征,另外,利用公式(5)再将每天的时段进行离散化处理构建特征。