欢迎来到知嘟嘟! 联系电话:13336804447 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13336804447
知嘟嘟经纪人
收藏
专利号: 2021104037950
申请人: 北京工业大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-05-06
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种用于微电网能量管理与优化的方法,其特征在于包括以下步骤:步骤(1):初始化,设定微电网各组件的状态集s和动作集a,折扣因子μ(常数),经验池D的容量N,一次训练所选取的样本数d,当前神经网络Q的参数(α,β),目标神经网络Q′的参数(α′,β′),用于计算调整λ的步骤参数σ1和σ2;

这里α,β分别表示当前网络中状态值函数网络V和优势函数网络A的超参数,α′,β′分别表示目标网络中状态值函数网络V和优势函数网络A的超参数;

步骤(2):微电网系统观测当前系统状态s并选择一个初始动作a,其由{恒温控制负载控制的动作,家用价格响应负载控制的动作,微电网电量短缺时确定储能系统优先级的动作,微电网电量过剩时确定储能系统优先级储能系统的动作}组成;

步骤(3):将动作a执行到微电网系统,并以动作a对微电网系统各组件进行控制;

步骤(4):计算微电网系统执行动作a所获得当前时间步t时奖励值rt;

步骤(5):观测下一时刻微电网系统所处状态s′;

步骤(6):微电网系统在经验池D中存储所得到的向量集(s,a,r,s′),即(当前时刻状态,当前时刻动作,当前时刻奖励,下一时刻状态);

步骤(7):若经验池已满,从经验池D中取一批数据样本d,以对神经网络进行训练;

步骤(8):构造当前网络Q和目标网络Q′,把数据样本输入到当前神经网络处理得到Q(s,a)值;

这里目标网络和当前网络采用相同的神经网络结构,其神经网络结构由输入层、隐藏层和输出层构成,其中隐藏层由卷积层、池化层、全连接层、并行的状态值函数网络V的隐藏层和优势函数网络A的隐藏层构成;

步骤(9):计算当前网络Q的状态值函数V(s,β)和优势函数A(s,a,α),即把Q(s,a)分别输入到状态值函数网络V和优势函数网络A处理后输出;

步骤(10):把输出的状态值函数和优势函数合并得到当前网络Q的动作‑状态函数;

即用状态值函数网络的输出加上优势函数网络的输出,其中优势函数网络的输出为当前优势函数值与所有优势函数均值的差,如下式所示这里 为优势函数A(s,a',α)的均值,a'为状态s'时的采用的动作,每个优势函数A值的计算都如步骤(9)所述, 表示优势函数集A(s,a',α)的数量;

步骤(11):利用当前网络和目标网络的输出来计算损失函数L=(rt+μmaxa'Q(s',a')‑Q2

(s,a)) ;

这里r+μmaxa'Q(s',a')是目标网络的输出,μ是折扣因子取1,maxa'Q(s',a')是计算并选取动作a'、状态s'时的最大Q值,Q(s,a)是当前网络的输出,本步骤的目的是计算目标Q值与当前Q值的均方差,其中Q值的计算方法如步骤(9)、(10);

步骤(12):对损失函数L进行随机梯度下降计算以更新当前网络Q的参数(α,β);

步骤(13):每隔Tc时间步更新目标网络的参数(α′,β′),即把当前网络参数(α,β)复制到目标网络代替(α′,β′);

这里Tc为设定的时间步数,若当前迭代计算的时间步t等于Tc时,则执行本步骤操作;

步骤(14):计算当前时间步t之前所有时刻T的累计奖赏值的平均值步骤(15):根据累计奖赏值的平均值 计算λ值其中σ1和σ2均为常数;

步骤(16):微电网系统根据λ值和ε值选取下一时刻动作a',当概率为λ时,选取前一时刻的动作作为下一时刻的动作,即a'=a;当概率为 时,选取一个随机动作作为下一时刻的动作;A表示在s状态下选择的一组动作,|A|表示集合A的基数;即a'=arandom;当概率为1‑λ‑ε时,选取Q值最大的动作为下一时刻的动作,即其中ε值是一个随时间步数不断减少的值,它的设定最大值和最小值是固定不变的,其设定最大值为0.5,设定最小值为0.004,其每次减少的衰变值为1e‑5;

步骤(17):更新迭代时间t=t+1;

步骤(18):重复步骤(2)~(17),直到收敛,并输出此时动作对应的{恒温控制负载控制的动作,家用价格响应负载控制的动作,微电网电量短缺时确定储能系统优先级的动作,微电网电量过剩时确定储能系统优先级储能系统的动作};

步骤(19):微电网系统利用对各组件的相关操作,完成最优能量管理与优化策略的选择。