1.一种基于近似模型规划的室内空气自适应控制方法,其特征在于,包括以下步骤:步骤1)、初始化马尔科夫决策模型,设置环境的状态空间X和动作空间U;
步骤2)、初始化参数向量,所述参数向量包括:值函数参数 策略参数 状态迁移函数参数 奖赏函数参数 和资格迹参数
步骤3)、初始化算法的超参数,所述超参数包括:设置折扣率γ,衰减因子λ,情节数E,高斯函数的探索标准差ε,每个情节所包含的最大时间步S,值函数的学习率α1,策略的学习率α2,模型的学习率α,规划的次数K;
步骤4)、初始化当前情节s=1;
步骤5)、初始化当前状态xt=x,当前时间步t=1;
步骤6)、选择动作:根据探索策略选择当前状态下应执行的动作ut=u;所述探索策略采用高斯函数生成,在任意状态处所采取的动作根据 得到,其中,h(x)=u*表示在状态x处根据最优策略得到的最优动作;
步骤7)、生成样本:在当前状态xt下,执行动作u,得到下一个状态xt+1和立即奖赏rt+1,生成的样本为(xt,ut,xt+1,rt+1);
步骤8)、采用样本(xt,ut,xt+1,rt+1)更新模型的状态迁移函数参数向量θ和奖赏函数参数向量υ,所述更新模型采用单步的预测误差作为梯度信号:将单步的状态预测误差作为梯度,得到迁移函数参数向量更新公式为 将单步的奖赏预测误差 作为梯度,得到奖赏函数参数向量的更新公式为φ(xt,ut)为状态动作特征;
步骤9)、计算TD误差;
步骤10)、更新资格迹:更新资格迹参数向量,资格迹更新公式为为状态x对应的特征向量;
步骤11)、更新值函数:更新值函数对应的参数向量,值函数更新公式为ξt+1=ξt+α1ωe(xt);
步骤12)、更新策略:更新策略对应的参数向量,策略更新公式为ζt+1=ξt+α2ω(u-u*)Tφ(xt),φ(xt)为状态特征;
步骤13)、更新当前状态:xt=xt+1;
步骤14)、更新当前时间步t=t+1,判断是否达到最大时间步:如果达到,转入步骤15);
否则,转入步骤5)继续执行;
步骤15)、采用近似模型规划,所述近似模型规划是在一定的规划次数下,迭代地利用模型xt+1=φT(xt,ut)θt和rt+1=φT(xt,ut)υt生成下一个状态和奖赏,并利用该状态和奖赏来更新值函数参数向量ξt+1=ξt+α1ωe(xt)和策略参数向量ζt+1=ζt+α2ω(u-u*)Tφ(xt);
步骤16)、更新当前情节s=s+1,判断是否达到最大情节数:如果达到,转入步骤17);否则,转入步骤5)继续执行;
步骤17)、根据学习到最优策略来获取室内空气自适应控制的最优策略。
2.根据权利要求1所述的基于近似模型规划的室内空气自适应控制方法,其特征在于,步骤(2)中所述值函数近似表示为 其中,高斯函数 用于将状态x映射为特征向量,为中心点,σ为高斯函数的标准差,ξ的维度与特征向量保持一致;所述策略近似表示为 其中,特征向量 与值函数的表示相同;模型包含状态迁移函数和奖赏函数,迁移函数近似表示为xt+1=φT(xt,ut)θt;奖赏函数可以被近似表示为rt+1=φT(xt,ut)υt,其中 为状态动作特征,为动作的中心点,σ1为状态维度的标准差,σ2为动作维度的标准差,θ为状态迁移函数的参数向量,υ为奖赏函数的参数向量。
3.根据权利要求1所述的基于近似模型规划的室内空气自适应控制方法,其特征在于,步骤(9)中的计算TD误差的计算公式为:ω=r+γV(xt+1)-V(xt)。