1.一种基于Q学习的通信网络任务资源调度方法,包括如下步骤:S1.获取通信网络的实时通信状态和通信参数,并初始化R表;
S2.通信网络的每一个任务调度节点进行自身Q表的训练;
S3.通信网络的每一个任务调度节点进行自身Q表的决策;
S4.通信网络根据每一个任务调度节点在步骤S3得到的Q表进行后续的任务资源调度;
S5.通信网络的每一个任务调度节点进行自身R表的更新;
S6.重复步骤S2~S5,进行持续的通信网络任务资源调度。
2.根据权利要求1所述的基于Q学习的通信网络任务资源调度方法,其特征在于步骤S1所述的初始化R表,具体为采用如下步骤进行初始化:前提:每个初始状态 中资源项的值不超过所有节点初始化资源量之和;
Ⅰ.对于每一个 均重复进行如下步骤Ⅱ~步骤Ⅷ;其中 为任务调度节点i在时刻0的状态;Si为任务调度节点i的状态空间集合;
Ⅱ.对于每一个 均重复进行如下步骤Ⅲ~步骤Ⅷ; 为任务调度节点i在时刻
0采取的行动;Ai为任务调度节点i的行动集合;
Ⅲ.根据初始行动 估算拟调度任务量;
Ⅳ.根据拟调度任务量估算任务需要的资源量;
Ⅴ.根据拟调度任务所需资源量与初始状态 中资源项的值估算资源利用率Ⅵ.根据每个节点初始化的损毁概率估算所有节点损毁概率的均值;
Ⅶ.进行判断:若初始状态 中任务项的值不大于资源项的值,则将节点损毁概率的均值作为初始任务成功率 否则,将初始任务成功率 设置为0;
Ⅷ.初始化任务调度节点i在时刻0获得的回报值 ε2为权重因子,且取值范围为0~1。
3.根据权利要求1或2所述的基于Q学习的通信网络任务资源调度方法,其特征在于步骤S2所述的通信网络的每一个任务调度节点进行自身Q表的训练,具体为采用如下步骤进行训练:
重复如下步骤A~步骤F直至重复次数达到设定的次数K:A.随机选择一个初始状态 为任务调度节点i在时刻t的状态;Si为任务调度节点i的状态空间集合;
B.设定第一变量Qmax的值为0;
C.对于每一个 均进行如下步骤a~步骤c; 为任务调度节点i在时刻t采取的行动;Ai为任务调度节点i的行动集合:a.采用如下算式计算任务调度节点i在t+1时刻的Q值:式中 为任务调度节点i在t+1时刻的Q值;α为学习因子,取值范围为[0,1],且α值越大表明行动的执行者越看重当前的回报; 为任务调度节点i在时刻t的Q值; 为任务调度节点i在时刻t+1获得的回报值;β为折扣因子,取值范围为[0,
1),β取值越大表明行动的执行者更重视未来的回报; 为任务调度节点i在时刻t采取行动 后从状态 转变而来的新状态; 为任务调度节点i在新状态 下能获得最大Q值的行动; 为任务调度节点i在时刻t+1在新状态 下采取行动 的Q值;
b.更新Qi中相应的元素;Qi为任务调度节点i的Q表;
c.对更新后的Qi中的元素进行判断:若 则将Qmax的值更新为 同时将amax的值更新为amax为任务调度节点i在时刻t+1在状态 下能获得最大Q值的行动;
否则,Qmax和amax不变;
D.设置探测概率
E.产生随机数ε,ε的取值范围为0~1;
F.对探测概率 和产生的随机数ε进行判断:若 则再次进行判断:若行动amax能够将状态 转换到下一个状态 则将的值赋值给 并跳转回步骤B;否则,跳转回步骤A;
否则,从集合Ai中随机选择一个除amax之外的行动,并再次进行判断:若被选择的行动能够将状态 转换到下一个状态 则将将 的值赋值给 并跳转回步骤B;否则,跳转回步骤A。
4.根据权利要求3所述的基于Q学习的通信网络任务资源调度方法,其特征在于步骤S3所述的通信网络的每一个任务调度节点进行自身Q表的决策,具体为采用如下步骤进行决策:
(1)初始设定 和第二变量V=0;
(2)对于每一个 均进行如下操作:根据 从Qi中查到
进行判断:若 则将 赋值给V,同时将 赋值给a0,a0为任务调度节点i在时刻t在状态 下能获得最大Q值的行动;
否则,V和a0不变;
(3)进行判断:若行动a0能够将状态 转换到下一个状态 则采用如下算式计算(4)更新Qi中相应的元素;
(5)将 的值赋值给 并回到步骤(2)。
5.根据权利要求4所述的基于Q学习的通信网络任务资源调度方法,其特征在于步骤S5所述的通信网络的每一个任务调度节点进行自身R表的更新,具体为采用如下步骤进行更新:
1)统计从lt到lt+τt期间资源视图中的资源总量,并记为 lt为任务调度与执行虚拟时间t;τt为任务调度与执行周期;资源视图为当前调度期内调度节点i的可见执行节点集合;
2)统计从lt到lt+τt期间已调度执行的任务的任务量并记为 并统计 所占用的资源总量;
3)根据步骤1)和步骤2)的统计结果,估算资源利用率并记为 资源利用率的定义为实际占用资源量与资源总量的比值;
4)根据从lt到lt+τt期间每个执行任务的节点的损毁率,估算任务执行的成功率;
5)基于步骤4)得到的每个任务的成功率,统计所有任务的平均成功率并记为t
6)采用如下算式计算任务调度节点i在时刻t获得的回报值ri:式中ε1为权重因子,且取值范围为0~1; 为任务调度节点i在时刻t统计的所有任务的平均成功率; 为任务调度节点i在时刻t统计的资源利用率;
7)根据 在回报表Ri中找到最近的状态;
8)根据 在回报表Ri中找到最近的行动;
9)使用 更新回报表Ri中找到的最近的状态以及找到的最近的行动所对应的回报值。