1.一种基于时序融合Transformer模型的中期小时级负荷概率预测方法,其特征在于,它包括以下步骤:步骤1:采集目标地区多个历史样本日的小时级负荷功率值及相关天气影响因素数据;
步骤2:将包括单变量负荷时间序列数据在内的原始负荷数据重构为面板数据矩阵,并对输入数据进行分类,分为时变输入和静态协变量输入,时变输入分为已知输入和观测到的输入;
步骤3:对输入数据进行归一化变换,将数据集划分为训练集、验证集和测试集;
步骤4:设定模型超参数,包含隐含层神经元的个数、学习率、编码器输入序列的长度、解码器输入序列的长度;
步骤5:建立时序融合Transformer模型,包括输入特征解释模块、多时间步融合模块;
步骤6:基于训练集根据损失函数对时序融合Transformer模型进行迭代训练,运用常规的梯度下降算法确定模型的最佳权重及偏置参数集;
步骤7:将验证集样本输入训练好的时序融合Transformer模型,根据验证集的误差优选出模型的最佳超参数,并基于最佳超参数对预测模型再训练;
步骤8:基于测试集利用训练好的时序融合Transformer模型对未来一个月各时刻负荷在不同分位点下的功率值进行预测,并对输出的预测结果进行反归一化,得到各预测时刻在不同分位点下的负荷预测值;
步骤5建立的时序融合Transformer模型主要包括输入特征解释模块、门控循环单元层、多时间步融合模块;
(1)输入特征解释模块用来解释各输入变量对输出的贡献,其公式包括:
γ=dropout(W2(ELU(W1s+b1))+b2)
cs=LayerNom(s+σ(W3γ+b3)⊙(W4γ+b4))
vt=softmax(dropout(W6(ELU(W5(Xt,cs)+b5))+b6))其中,Xt=[x1,t,x2,t,...,xk,t]T为t时刻k个特征组成的输入向量,是经输入特征解释模块处理后的送入其它模块的向量,cs是由静态协变量s经门控残差过程处理后的context向量,γ是中间变量,σ(·)是sigmoid激活函数;vt是对应于输入变量的权重向量,代表每个输入特征的重要程度;W*和b*分别是对应层的权重矩阵和偏置向量,LayerNorm表示标准的层归一化操作,ELU代表指数线性单元激活函数,dropout和softmax分别表示常规的dropout操作和softmax激活函数;
经输入特征解释模块转换后的观测到的输入已知输入被分别送入编码器和解码器的两层GRU中;
编码器由输入特征解释模块及两层GRU组成,解码器也由输入特征解释模块及两层GRU组成,但它们的权重及偏置参数不共享;
(2)门控循环单元层用于处理时间信息,其公式包括:
zt=σ(Wz[ht-1,xt])
rt=σ(Wr[ht-1,xt])
其中,xt是当前输入,zt和rt分别是更新门输出和重置门输出,ht和ht-1分别表示t时刻和t-1时刻的隐含层状态,是中间变量,Wz和Wr是对应门的权重矩阵,表示Hadamard乘积,tanh表示常规的tanh激活函数;
(3)多时间步融合模块用来学习不同时间步之间的长期依赖关系,多时间步融合模块根据不同时间步的重要程度对当前预测时间步之前的所有时间步的编码器和解码器的输出进行加权,其公式包括:Attention(Q,K,V)=A(Q,K)V
其中,A(·)是归一化函数,n是K矩阵对应的向量的维数,hm是头的个数,Q、K和V分别由输入矩阵X分别与对应的权重矩阵相乘得到,分别是Q和K的第h个头的权重矩阵,WV是所有头共享的权值矩阵V,是中间变量,是最终线性映射的权重矩阵;
通过对多时间步融合模块的输出进行线性映射得到分位数预测结果。
2.根据权利要求1所述的方法,其特征在于,在步骤2中,原始的单变量负荷时间序列[y1,y2,...,yn×m]被重构为面板数据矩阵Y∈Rm×n,其公式如下:式中,y表示负荷值,n和m分别为天数及一天中的时刻点数,t表示第t天,s代表时刻点标签,也是模型的静态协变量输入;与时间相关的输入χs,t=[Zs,t,Xs,t]包括两个部分,观测到的输入Zs,t和已知输入Xs,t。
3.根据权利要求1所述的方法,其特征在于,在步骤6中,基于训练集根据损失函数对时序融合Transformer模型进行迭代训练,运用常规的梯度下降算法确定模型的最佳权重及偏置参数集;
具体地,采用的损失函数为加入了分位数约束和预测区间惩罚项的损失函数,其优势是在避免分位数交叉的同时构建更紧凑的预测区间;
假设概率点τi下的分位数损失函数定义为loss(τi);在常用的分位数预测中,将一系列概率点0<τ1<…<τi…<τr<1下的所有分位数损失的平均值作为联合分位数损失函数l,如下式所示:其中是概率点τi下t时刻真实负荷值yt的条件分位数,N是样本数,r是分位点的个数,a是中间变量;根据分位数的固有性质,对于每个概率点τ,yt的条件分位数必须满足以下要求:为了提高预测结果的合理性,在原始分位数损失函数中加入了违反分位数约束的惩罚项,以尽可能消除相邻分位数之间的交叉;为了得到更紧凑的预测区间,相应的预测区间惩罚项也被引入到损失函数中;则最终改进后的损失函数L如下所示:其中W1,i和bi为惩罚系数;W2是一个比例因子,用来确保损失函数中大括号内作加法处理的两项具有相似的值,而cj=τr+1-j-τj用于确保随着置信区间的增大,预测区间惩罚项的权重更大。