1.一种污水处理的强化学习控制方法,其特征在于:在现场控制器控制的过程中,获取现场控制器的输入信号,并将现场控制器的输出指令和强化学习模型的输出指令合并为最终输出指令输出控制,其中强化学习模型的输出指令中数值在最终输出指令总数值的占比为N,N从0逐渐增大至100%;当强化学习模型的输出指令中数值在最终输出指令总数值的占比为100%时,切断现场控制器控制的输入和输出。
2.如权利要求1所述的污水处理的强化学习控制方法,其特征在于:所述将现场控制器的输出指令和强化学习模型的输出指令合并为最终输出指令输出,采用如下步骤:a.获取现场控制器的输出指令和强化学习模型的输出指令;
b.将现场控制器的输出指令和强化学习模型的输出指令中的数值取出为现场控制器输出指令数值和强化学习模型输出指令数值;
c.将强化学习模型输出指令数值乘以系数N后更新为新的强化学习模型输出指令数值;
d.将现场控制器输出指令数值乘以系数(1-N)后更新为新的现场控制器输出指令数值;
e.将新的现场控制器输出指令数值和新的强化学习模型输出指令数值叠加得到输出指令叠加值;
f.将输出指令叠加值封装为输出指令发送指令。。
3.如权利要求1所述的污水处理的强化学习控制方法,其特征在于:所述N初始为0,每经过M次将现场控制器的输出指令和强化学习模型的输出指令合并为最终输出指令输出控制的步骤后,N自加0.5%。
4.如权利要求3所述的污水处理的强化学习控制方法,其特征在于:所述M取值由用户设定,但限定为5~20。
5.如权利要求1所述的污水处理的强化学习控制方法,其特征在于:所述强化学习模型采用带值函数逼近的TD学习算法。
6.如权利要求1所述的污水处理的强化学习控制方法,其特征在于:所述强化学习模型的值函数为高斯核函数。
7.如权利要求1所述的污水处理的强化学习控制方法,其特征在于:所述强化学习模型采用如下方式更新:a.获取现场控制器的输入作为当前现场控制器输入,将当前现场控制器输入作为值函数的输出反向计算值函数的输入,计算结果作为当前模拟输入;
b.根据当前模拟输入和前一现场控制器输入的误差值更新值函数,如无前一现场控制器输入,则将当前模拟输入直接作为误差值;
c.将当前现场控制器输入代入至更新后的值函数中计算输出指令值;
d.当前现场控制器输入更新至前一现场控制器输入,将输出指令值封装为输出指令发送,然后进入下一时序,等待获取现场控制器的输入。
8.如权利要求7所述的污水处理的强化学习控制方法,其特征在于:每一时序时长一小时。