欢迎来到知嘟嘟! 联系电话:13336804447 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13336804447
知嘟嘟经纪人
收藏
专利号: 2021102712867
申请人: 中南大学
专利类型:发明专利
专利状态:已下证
专利领域: 电通信技术
更新日期:2026-03-04
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于Q学习的通信网络任务资源调度方法,包括如下步骤:S1.获取通信网络的实时通信状态和通信参数,并初始化R表;

S2.通信网络的每一个任务调度节点进行自身Q表的训练;

S3.通信网络的每一个任务调度节点进行自身Q表的决策;

S4.通信网络根据每一个任务调度节点在步骤S3得到的Q表进行后续的任务资源调度;

S5.通信网络的每一个任务调度节点进行自身R表的更新;

S6.重复步骤S2~S5,进行持续的通信网络任务资源调度。

2.根据权利要求1所述的基于Q学习的通信网络任务资源调度方法,其特征在于步骤S1所述的初始化R表,具体为采用如下步骤进行初始化:前提:每个初始状态 中资源项的值不超过所有节点初始化资源量之和;

Ⅰ.对于每一个 均重复进行如下步骤Ⅱ~步骤Ⅷ;其中 为任务调度节点i在时刻0的状态;Si为任务调度节点i的状态空间集合;

Ⅱ.对于每一个 均重复进行如下步骤Ⅲ~步骤Ⅷ; 为任务调度节点i在时刻

0采取的行动;Ai为任务调度节点i的行动集合;

Ⅲ.根据初始行动 估算拟调度任务量;

Ⅳ.根据拟调度任务量估算任务需要的资源量;

Ⅴ.根据拟调度任务所需资源量与初始状态 中资源项的值估算资源利用率Ⅵ.根据每个节点初始化的损毁概率估算所有节点损毁概率的均值;

Ⅶ.进行判断:若初始状态 中任务项的值不大于资源项的值,则将节点损毁概率的均值作为初始任务成功率 否则,将初始任务成功率 设置为0;

Ⅷ.初始化任务调度节点i在时刻0获得的回报值 ε2为权重因子,且取值范围为0~1。

3.根据权利要求1或2所述的基于Q学习的通信网络任务资源调度方法,其特征在于步骤S2所述的通信网络的每一个任务调度节点进行自身Q表的训练,具体为采用如下步骤进行训练:

重复如下步骤A~步骤F直至重复次数达到设定的次数K:A.随机选择一个初始状态 为任务调度节点i在时刻t的状态;Si为任务调度节点i的状态空间集合;

B.设定第一变量Qmax的值为0;

C.对于每一个 均进行如下步骤a~步骤c; 为任务调度节点i在时刻t采取的行动;Ai为任务调度节点i的行动集合:a.采用如下算式计算任务调度节点i在t+1时刻的Q值:式中 为任务调度节点i在t+1时刻的Q值;α为学习因子,取值范围为[0,1],且α值越大表明行动的执行者越看重当前的回报; 为任务调度节点i在时刻t的Q值; 为任务调度节点i在时刻t+1获得的回报值;β为折扣因子,取值范围为[0,

1),β取值越大表明行动的执行者更重视未来的回报; 为任务调度节点i在时刻t采取行动 后从状态 转变而来的新状态; 为任务调度节点i在新状态 下能获得最大Q值的行动; 为任务调度节点i在时刻t+1在新状态 下采取行动 的Q值;

b.更新Qi中相应的元素;Qi为任务调度节点i的Q表;

c.对更新后的Qi中的元素进行判断:若 则将Qmax的值更新为 同时将amax的值更新为amax为任务调度节点i在时刻t+1在状态 下能获得最大Q值的行动;

否则,Qmax和amax不变;

D.设置探测概率

E.产生随机数ε,ε的取值范围为0~1;

F.对探测概率 和产生的随机数ε进行判断:若 则再次进行判断:若行动amax能够将状态 转换到下一个状态 则将的值赋值给 并跳转回步骤B;否则,跳转回步骤A;

否则,从集合Ai中随机选择一个除amax之外的行动,并再次进行判断:若被选择的行动能够将状态 转换到下一个状态 则将将 的值赋值给 并跳转回步骤B;否则,跳转回步骤A。

4.根据权利要求3所述的基于Q学习的通信网络任务资源调度方法,其特征在于步骤S3所述的通信网络的每一个任务调度节点进行自身Q表的决策,具体为采用如下步骤进行决策:

(1)初始设定 和第二变量V=0;

(2)对于每一个 均进行如下操作:根据 从Qi中查到

进行判断:若 则将 赋值给V,同时将 赋值给a0,a0为任务调度节点i在时刻t在状态 下能获得最大Q值的行动;

否则,V和a0不变;

(3)进行判断:若行动a0能够将状态 转换到下一个状态 则采用如下算式计算(4)更新Qi中相应的元素;

(5)将 的值赋值给 并回到步骤(2)。

5.根据权利要求4所述的基于Q学习的通信网络任务资源调度方法,其特征在于步骤S5所述的通信网络的每一个任务调度节点进行自身R表的更新,具体为采用如下步骤进行更新:

1)统计从lt到lt+τt期间资源视图中的资源总量,并记为 lt为任务调度与执行虚拟时间t;τt为任务调度与执行周期;资源视图为当前调度期内调度节点i的可见执行节点集合;

2)统计从lt到lt+τt期间已调度执行的任务的任务量并记为 并统计 所占用的资源总量;

3)根据步骤1)和步骤2)的统计结果,估算资源利用率并记为 资源利用率的定义为实际占用资源量与资源总量的比值;

4)根据从lt到lt+τt期间每个执行任务的节点的损毁率,估算任务执行的成功率;

5)基于步骤4)得到的每个任务的成功率,统计所有任务的平均成功率并记为t

6)采用如下算式计算任务调度节点i在时刻t获得的回报值ri:式中ε1为权重因子,且取值范围为0~1; 为任务调度节点i在时刻t统计的所有任务的平均成功率; 为任务调度节点i在时刻t统计的资源利用率;

7)根据 在回报表Ri中找到最近的状态;

8)根据 在回报表Ri中找到最近的行动;

9)使用 更新回报表Ri中找到的最近的状态以及找到的最近的行动所对应的回报值。