欢迎来到知嘟嘟! 联系电话:13336804447 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13336804447
知嘟嘟经纪人
收藏
专利号: 2022113672849
申请人: 曲阜师范大学
专利类型:发明专利
专利状态:已下证
专利领域: 控制;调节
更新日期:2025-12-15
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于深度强化学习的低风速永磁同步风力发电机控制方法,所述永磁同步风力发电机的定子与机侧变流器相连;其特征在于,采用如下步骤:步骤1,采用深度强化学习TD3算法,设计所述机侧变流器的外环转速跟踪控制器,具体过程是:

11)根据所述低风速永磁同步风力发电机的环境状态构建基于TD3算法的智能体:所述环境状态包括所述永磁同步风力发电机的转速n(t)、所述转速的偏差e(t)及其积分∫e(t)dt,其中,e(t)=nr(t)‑n(t),nr(t)为所述永磁同步风力发电机的转速参考值;将所述环境状态记为st,则有st=[n(t)e(t) ∫e(t)dt];

所述智能体包括Actor深度神经网络结构和Critic深度神经网络结构,含有共计6个神经网络,具体为:所述Actor深度神经网络结构由策略网络Actor网络及其目标网络Actor_Target网络组成;

所述Actor网络的输入是环境状态st,对所述Actor网络的输出添加探索噪声ε后得到动a a作at(st|θ),其中,θ为所述Actor网络的权值参数,探索噪声ε服从正态分布;

所述Actor_Target网络的输入是下一时刻的环境状态st+1,对所述Actor_Target网络a’ a’的输出添加策略噪声ε’得到下一时刻的动作估计值at+1(st+1|θ ),其中,θ 为所述Actor_Target网络的权值参数,策略噪声ε’服从正态分布;

设置所述探索噪声ε的方差衰减率ηe和所述策略噪声ε’的方差衰减率ηp,以获得更加平滑、准确的动作输出;

所述Critic深度神经网络结构由两套用于价值函数估算的评价网络组成,即Critic1网络及其目标网络Critic1_Target网络和Critic2网络及其目标网络Critic2_Target网络;

所述Critic1网络和所述Critic2网络根据当前所述Actor网络的输入st和动作at(st|aθ),分别输出价值函数 和 其中 和 分别为所述Critic1网络和Critic2网络的权值参数;所述Critic1_Target网络和所述Critic2_Target网络根据所a’述Actor_Target网络的输入st+1和所述动作估计值at+1(st+1|θ ),分别输出目标价值函数和 其中, 和 分别为所述Critic1_Target网络和所述Critic2_Target网络的权值参数;

12)设计奖励函数:

所述奖励函数包括:转速偏差奖励函数和转速奖励函数,具体为:A1.转速偏差奖励函数r1(t)设计为:

A2.转速奖励函数r2(t)设计为:

式中,nN为所述永磁同步风力发电机的额定转速;

A3.根据步骤A1设计的转速偏差奖励函数r1(t)与步骤A2设计的转速奖励函数r2(t),构造奖励函数Rt为:Rt=10(|e(t)<0.1r/min|)‑1(e(t)≥0.1r/min)‑100(n(t)<0||n(t)>1.5nN) (3)

13)采用深度强化学习TD3算法对所述智能体进行训练:B1.创建所述智能体与环境信息交互的接口,并设置所述智能体训练的相关参数,包括:a

初始化所述Actor网络、所述Critic1网络和所述Critic2网络的权值参数θ、并将其分别复制给其对应的目标网络Actor_Target、Critic1_Target和Critic2_Target网a’ a络的权值参数,即:θ ←θ、

设置所述Actor网络的学习率α、所述Critic网络的学习率β;

设置深度强化学习的折扣因子γ;

设置训练的最大回合数M及每个训练回合中的最大步数N;

设置并初始化经验记忆库;

B2.在一个训练回合的每一步训练开始之前,从所述经验记忆库中随机批量选取m个经验数据组组成训练集,所述经验数据组的大小为2的整数次幂;

B3.所述智能体根据各经验数据组的当前环境状态stj,计算当前奖励函数值Rtj,输出并a执行相关动作atj(stj|θ);每一步动作执行后,得到下一环境状态stj+1,并将环境状态stj、动a作atj(stj|θ)、奖励函数值Rtj、下一环境状态stj+1作为一个经验数据组存储至所述经验记忆库中,其中j=1,2,3,…,m;

B4.更新所述智能体中深度神经网络的权值参数:所述Actor网络、Critic1和Critic2网络均采用小批量梯度下降法以神经网络反向传播方法,并基于深度强化学习TD3算法特a有的延迟更新方式更新其网络权值参数θ、 和 对应的目标网络Actor_Target网络、a’Critic1_Target和Critic2_Target网络均采用软更新方式更新其网络权值参数θ 、 和B5.在每个训练回合中,当所述永磁同步风力发电机转速小于0或大于2nN,则结束该训练回合,然后计算最后k个训练回合的平均奖励函数值RE,进入步骤B6;否则判断该训练回合的步数是否达到最大步数N,如果未达到,则返回步骤B2进行下一步训练;如果达到,则结束该回合的训练,然后计算最后连续k个训练回合的平均奖励函数值RE,进入步骤B6;

B6.如果RE满足RE≥10N‑D,其中D为训练过程中设置的裕量,则保存此时的智能体模型,并结束整个训练过程;否则,判断是否达到最大训练回合数M,如果达到,则结束整个训练过程,如未达到,则返回步骤B2进入下一训练回合继续训练;

a a

B7.将所述智能体输出的动作at(st|θ)进行量化操作,即:将at(st|θ)与量化因子σ相a乘,得到所述外环转速跟踪控制器的输出为σ·at(st|θ);

14)将训练好的所述智能体模型移植入所述机侧变流器的主控芯片,建立基于所述机侧变流器的主控芯片的实际转速跟踪控制系统,实现转速跟踪控制;

步骤2,采用零d轴电流控制策略和电流前馈解耦控制策略,设计所述机侧变流器的内环电流跟踪控制器,实现所述永磁同步风力发电机电流跟踪控制,具体过程为:a

21)将步骤1得到的所述外环转速跟踪控制器输出σ·at(st|θ)作为所述永磁同步风力*发电机的定子电流q轴分量iq的参考值iq ,将之与其实际值iq作差输入第一PI控制器,所述第一PI控制器的输出与q轴前馈解耦补偿项‑Rsiq‑ωLdid+ωψf相加,得到所述永磁同步风力*发电机的定子电压的q轴分量uq的参考值uq ;其中,Rs为所述永磁同步风力发电机的定子电阻,ω为所述永磁同步风力发电机的转子旋转角速度,ω=2πn(t),Ld是定子电感的d轴分量,ψf为所述永磁同步风力发电机的转子永磁体磁链;

*

22)令所述永磁同步风力发电机的定子电流的d轴分量id的参考值id =0,并将之与其实际值id作差输入第二PI控制器,所述第二PI控制器与d轴前馈解耦补偿项‑Rsid+ωLqiq相*加,得到所述永磁同步风力发电机的定子电压的d轴分量ud的参考值ud ;其中,Lq是定子电感的q轴分量;

* *

步骤3,将步骤2得到的所述永磁同步风力发电机的定子电压参考值ud、uq经dq/αβ坐标* * * *变换得到uα、uβ;然后,将uα和uβ经SVPWM模块调制后产生驱动信号,驱动所述机侧变流器的功率开关管,控制所述永磁同步风力发电机工作。