1.基于自适应控制器的建筑物节能系统,包括空调系统、电动开窗系统和通风系统,其特征在于,还包括主控器、用于检测室内温度的温度传感器、用于检测室内二氧化碳浓度的二氧化碳传感器和用于检测能耗的能耗计量装置;
所述温度传感器与温度从控器相连,所述温度从控器包括与温度传感器相连的温度数据采集模块以及与温度数据采集模块相连的第一通信模块;
所述二氧化碳传感器与二氧化碳从控器相连,所述二氧化碳从控器包括与二氧化碳传感器相连的二氧化碳数据采集模块以及与二氧化碳数据采集模块相连的第二通信模块;
所述能耗计量装置与能耗从控器相连,所述能耗从控器包括与能耗计量装置相连的能耗数据采集模块以及与能耗数据采集模块相连的第三通信模块;
所述主控器包括自适应控制器以及与自适应控制器相连的第四通信模块,所述第一通信模块、第二通信模块以及第三通信模块分别与第四通信模块无线连接,所述空调系统、电动开窗系统和通风系统分别与第四通信模块无线连接。
2.如权利要求1所述的基于自适应控制器的建筑物节能系统,其特征在于,还包括电动窗帘系统以及光强传感器,所述光强传感器与光强数据采集模块相连,所述光强数据采集模块与第五通信模块相连,所述第五通信模块与第四通信模块无线连接,所述电动窗帘系统与第四通信模块无线连接。
3.建筑物节能领域的自适应控制器的控制方法,其特征在于包括:步骤1:建立奖惩反馈模型和评价行为值函数Q(st,at);
步骤2:初始化评价行为值函数Q(s,a)、学习率α,折扣因素γ,其中,s表示状态因素,a表示行为因素,γ是一个0≤γ≤1的参数,状态因素是由室内温度T、室内二氧化碳浓度ρ和空调设置温度setT构成,行为因素是由空调系统行为、电动开窗系统行为和通风系统行为构成;
步骤3:运行片段,每个片段包括N个单位时间步,
初始化,令时刻t=0,通过温度传感器、二氧化碳传感器得到初始状态因素st的室内温度T和二氧化碳浓度ρ,确定空调设置温度setT;
步骤3-1:每个单位时间步的运行包括:
对当前状态因素st,根据贪心选择策略h(st)计算确定出当前状态因素st在时刻t的行为因素at,a∈h(st),根据行为因素at对空调系统、电动开窗系统和通风系统进行调节,使状态因素变迁到下一状态因素st+1,并测出st+1的室内温度T和二氧化碳浓度ρ,根据奖惩反馈模型计算得出在状态因素st和行为因素at下的奖惩rt,更新当前评价行为值函数Q(st,at):
更新学习率α,t=t+1;
步骤4:进行判断,具体为:
若st+1对应的状态不符合状态结束条件,则返回到步骤3-1,进行下一单位时间步的运行;
若st+1对应的状态符合状态结束条件,则监测所有状态因素下的评价行为值函数是否满足预定的精度要求,若有评价行为值函数不满足精度要求,则返回到步骤3进行新的片段的运行,若评价行为值函数都满足精度要求,则结束循环。
4.如权利要求3所述的自适应控制器的控制方法,其特征在于,所述步骤1中的奖惩反馈模型为:
indoor_air_quality_penalty=|ρt-350|/500,
其中T0是室内初始温度,Tt是t时刻的室内温度,setT是空调设置温度;Et是t时刻的空调系统、电动开窗系统和通风系统的能耗值,可通过能耗计量装置测量得到;Emax是一个片段的空调系统、电动开窗系统和通风系统的最大能耗,可通过能耗计量装置预先测得;ρt是t时刻的室内CO2浓度;T_penalty是室内温度参数;indoor_air_quality_penalty是室内空气质量参数;E_penalty是能耗参数;w1、w2和w3分别是权重参数,设置为:w1=0.7,w2=0.25,w3=0.05。
5.如权利要求3所述的建筑物节能领域的自适应控制器的控制方法,其特征正在于:步骤4中,若st+1对应的状态不符合状态结束条件是指:若st+1对应的单位时间步的步数小于循环设置的最大步数N;若st+1对应的状态符合状态结束条件是指:若st+1对应的单位时间步的步数等于循环设置的最大步数N。
6.如权利要求3所述的建筑物节能领域的自适应控制器的控制方法,其特征正在于:步骤4中,结束循环后,将获得的空调系统、电动开窗系统和通风系统的行为因素作为一个自适应动作策略储存进入策略库。
7.建筑物节能领域的自适应控制器的仿真方法,其特征在于包括:步骤1:建立状态变迁模型、奖惩反馈模型和评价行为值函数Q(st,at);
步骤2:初始化评价行为值函数Q(s,a)、学习率α,折扣因素γ,其中,s表示状态因素,a表示行为因素,γ是一个0≤γ≤1的参数,状态因素是由室内温度T、室内二氧化碳浓度ρ和空调设置温度setT构成,行为因素是由空调系统行为、电动开窗系统行为和通风系统行为构成;
步骤3:运行片段,每个片段包括N个单位时间步,
令时刻t=0,初始化初始状态因素s0,也就是确定0时刻的T、ρ和setT,步骤3-1:每个单位时间步的运行包括:对当前状态因素st,根据贪心选择策略h(st)计算确定出当前状态因素st在时刻t的行为因素at,a∈h(st),采取这个行为因素at,根据建立的状态变迁模型计算状态因素的变迁,状态因素变迁到下一状态因素st+1,根据建立的奖惩反馈模型计算得出在状态因素st和行为因素at下的奖惩rt,更新当前评价行为值函数Q(st,at):
更新学习率α,t=t+1;
步骤4:进行判断,具体为:
若st+1对应的状态不符合状态结束条件,则返回到步骤3-1,进行下一单位时间步的运行;
若st+1对应的状态符合状态结束条件,则监测所有状态因素下的评价行为值函数是否满足预定的精度要求,若有评价行为值函数不满足精度要求,则返回到步骤3进行新的片段的运行,若评价行为值函数都满足精度要求,则结束循环。
8.如权利要求7所述的建筑物节能领域的自适应控制器的仿真方法,其特征在于:所述步骤1中:状态变迁模型为:
kongtiao_fig%2
Tt+1=Tt-[(-1) ×T_changerate
×(1-0.1×tongfong_fig)],
ρt+1=ρt-0.1×windows_fig+0.2×tongfeng_fig,Et+1=Et+kongtiao_fig+tongfeng_fig,
奖惩反馈模型为:
indoor_air_quality_penalty=|ρt-350|/500,
全部行为因素建模为64×3的矩阵,其横向量是一个三维的向量,表示一个行为;行为向量第一位kongtiao_fig表示空调系统行为:1表示取暖小风,2表示制冷小风,3表示取暖大风,4表示制冷大风;第二位windows_fig表示电动开窗系统行为:0为关闭,1为微张,2为半张,3为全开;最后一位tongfeng_fig表示通风系统行为:0是关闭,1是小档,2是中档,3是大档;
其中,T_changerate表示温度变化速率,T0是室内初始温度,setT是空调设置温度;E是实时能耗,可根据行为因素模型的相关系统行为对应的数值累加得到,Emax是最大能耗,可根据片段中的单位时间步的总步数N计算得到,也就是Emax=7N;ρ是室内CO2浓度;T_penalty是室内温度参数,indoor_air_quality_penalty是室内空气质量参数,E_penalty是能耗参数,w1、w2、w3分别是其权重参数,室内温度稳定在设置温度是首要目的,同样也要考虑CO2浓度和能耗因素,参数的设置为:w1=0.7,w2=0.25,w3=0.05。
9.如权利要求7所述的建筑物节能领域的自适应控制器的仿真方法,其特征在于:初始状态因素s0对应的初始状态室内温度T的范围为0至40摄氏度,室内二氧化碳浓度ρ的范围为200至1000ppm。
10.如权利要求7所述的建筑物节能领域的自适应控制器的仿真方法,其特征在于:步骤4中,若st+1对应的状态不符合状态结束条件是指:若st+1对应的单位时间步的步数小于循环设置的最大步数N;若st+1对应的状态符合状态结束条件是指:若st+1对应的单位时间步的步数等于循环设置的最大步数N。