知嘟嘟-专利交易平台_专利购买_专利出售-买专利,上嘟嘟

欢迎来到知嘟嘟！联系电话：13336804447 卖家免费入驻，海量在线求购！卖家免费入驻，海量在线求购！

嘟嘟会员

帮助中心网站地图

查出售查高校查求购查年费

我要发布

首页转移热力图Hot 专利交易委托购买高校专区科技服务专利求购年费查询行业资讯

联系电话：13336804447

知嘟嘟经纪人

基于Q学习的通信网络任务资源调度方法

面议

专利号： 2021102712867

申请人：中南大学

专利类型：发明专利

专利状态：已下证

专利领域：电通信技术

更新日期：2026-04-06

缴费截止日期：暂无

价格&联系人

年费信息

委托购买

专利简介

专利详情

委托购买说明

需准备材料

常见问题

摘要:

权利要求书:

1.一种基于Q学习的通信网络任务资源调度方法，包括如下步骤：S1.获取通信网络的实时通信状态和通信参数，并初始化R表；

S2.通信网络的每一个任务调度节点进行自身Q表的训练；

S3.通信网络的每一个任务调度节点进行自身Q表的决策；

S4.通信网络根据每一个任务调度节点在步骤S3得到的Q表进行后续的任务资源调度；

S5.通信网络的每一个任务调度节点进行自身R表的更新；

S6.重复步骤S2～S5，进行持续的通信网络任务资源调度。

2.根据权利要求1所述的基于Q学习的通信网络任务资源调度方法，其特征在于步骤S1所述的初始化R表，具体为采用如下步骤进行初始化：前提：每个初始状态中资源项的值不超过所有节点初始化资源量之和；

Ⅰ.对于每一个均重复进行如下步骤Ⅱ～步骤Ⅷ；其中为任务调度节点i在时刻0的状态；Si为任务调度节点i的状态空间集合；

Ⅱ.对于每一个均重复进行如下步骤Ⅲ～步骤Ⅷ；为任务调度节点i在时刻

0采取的行动；Ai为任务调度节点i的行动集合；

Ⅲ.根据初始行动估算拟调度任务量；

Ⅳ.根据拟调度任务量估算任务需要的资源量；

Ⅴ.根据拟调度任务所需资源量与初始状态中资源项的值估算资源利用率Ⅵ.根据每个节点初始化的损毁概率估算所有节点损毁概率的均值；

Ⅶ.进行判断：若初始状态中任务项的值不大于资源项的值，则将节点损毁概率的均值作为初始任务成功率否则，将初始任务成功率设置为0；

Ⅷ.初始化任务调度节点i在时刻0获得的回报值 ε2为权重因子，且取值范围为0～1。

3.根据权利要求1或2所述的基于Q学习的通信网络任务资源调度方法，其特征在于步骤S2所述的通信网络的每一个任务调度节点进行自身Q表的训练，具体为采用如下步骤进行训练：

重复如下步骤A～步骤F直至重复次数达到设定的次数K：A.随机选择一个初始状态为任务调度节点i在时刻t的状态；Si为任务调度节点i的状态空间集合；

B.设定第一变量Qmax的值为0；

C.对于每一个均进行如下步骤a～步骤c；为任务调度节点i在时刻t采取的行动；Ai为任务调度节点i的行动集合：a.采用如下算式计算任务调度节点i在t+1时刻的Q值：式中为任务调度节点i在t+1时刻的Q值；α为学习因子，取值范围为[0,1]，且α值越大表明行动的执行者越看重当前的回报；为任务调度节点i在时刻t的Q值；为任务调度节点i在时刻t+1获得的回报值；β为折扣因子，取值范围为[0,

1)，β取值越大表明行动的执行者更重视未来的回报；为任务调度节点i在时刻t采取行动后从状态转变而来的新状态；为任务调度节点i在新状态下能获得最大Q值的行动；为任务调度节点i在时刻t+1在新状态下采取行动的Q值；

b.更新Qi中相应的元素；Qi为任务调度节点i的Q表；

c.对更新后的Qi中的元素进行判断：若则将Qmax的值更新为同时将amax的值更新为amax为任务调度节点i在时刻t+1在状态下能获得最大Q值的行动；

否则，Qmax和amax不变；

D.设置探测概率

E.产生随机数ε，ε的取值范围为0～1；

F.对探测概率和产生的随机数ε进行判断：若则再次进行判断：若行动amax能够将状态转换到下一个状态则将的值赋值给并跳转回步骤B；否则，跳转回步骤A；

否则，从集合Ai中随机选择一个除amax之外的行动，并再次进行判断：若被选择的行动能够将状态转换到下一个状态则将将的值赋值给并跳转回步骤B；否则，跳转回步骤A。

4.根据权利要求3所述的基于Q学习的通信网络任务资源调度方法，其特征在于步骤S3所述的通信网络的每一个任务调度节点进行自身Q表的决策，具体为采用如下步骤进行决策：

(1)初始设定和第二变量V＝0；

(2)对于每一个均进行如下操作：根据从Qi中查到

进行判断：若则将赋值给V，同时将赋值给a0，a0为任务调度节点i在时刻t在状态下能获得最大Q值的行动；