欢迎来到知嘟嘟! 联系电话:13336804447 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13336804447
知嘟嘟经纪人
收藏
专利号: 2020101073005
申请人: 重庆邮电大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-02-23
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于深度强化学习的计算资源协同合作方法,其特征在于:该方法包括以下步骤:步骤一:为无缝链接,将边缘服务器形成蜂窝状部署于5G网络密集的区域;

步骤二:视每个边缘服务器为一个智能体,将记录一段时刻的计算资源状态和对应的动作作为样本放入experiencereplay中;

步骤三:为增加样本的的独立性,在每一个时刻t中从experiencereplay随机选择状态样本获得经验元组,然后将每一次的经验元组存放入experiencereplay中积攒经验并存储;

步骤四:再通过目标网络targetnet和评估网络evalnet对Q值迭代同时得到新的状态再次放入experiencereplay中,利用损失函数更新权重参数,最终得到最优近似解解,获得边缘服务器协作的最优决策。

2.根据权利要求1所述的一种基于深度强化学习的计算资源协同合作方法,其特征在于:所述步骤一中,边缘服务器在接收协同计算结果上花费的精力和时间忽略不计;

考虑系统模型,N个移动用户通过无线链路将计算任务卸载到边缘服务器;每个用户有M个独立的任务需要完成;

为对任务建模,使用蜂窝网络形状来最大化边缘服务器的覆盖利用率;通过合作优化每个边缘任务的卸载决策和服务器计算资源分配,以及任务的传输和接收,制定以最小化完成计算任务的能耗和计算资源充分利用为目标的优化案例。

3.根据权利要求1所述的一种基于深度强化学习的计算资源协同合作方法,其特征在于:所述步骤二中,视每个边缘服务器为一个智能体,将其每时刻的CPU、任务量和能耗的计算资源状态作为一个状态样本,其中合作伙伴的cpu空闲配置文件被定义为终端设备的数据,合作伙伴在持续时间t∈[0,T]内计算这些数据,表示为Ubit(t);

其中有空闲CPU的协作边缘服务器信息如下:协同边缘服务器CPU状态信息是指CPU随时间的状态,通过定义如下的协同者CPU事件空间、进程和纪元来纪录,其中α={α1,α2},表示协同边缘服务器的CPU状态空间样本,α1和α2分别协同边缘服务器从忙碌到闲,再由空闲到忙碌;然后将协同的边缘处理器进程定义为协处理器事件序列的时间瞬间:两个连续事件之间伴随着较长的时间间隔Tk=sk-sk-1,其中 称为一个epoch;

CPU的进程是允许离线设计协作计算策略,合作者CPU进程的一个样本路径,对于每个epoch k,让Ik表示CPU状态指示器,其中值1和0分别表示空闲状态和繁忙状态;服务器的CPU空闲配置如下:边缘协作者对没有CPU空闲的边缘服务器的特性具有非因果知识;假设合作者在CPU中处理之前,为存储卸载的数据保留一个q位缓冲区;

考虑边缘服务器上的两种数据到达形式;一个任务到达假设输入L-bit在t=0时间到达,因此边缘服务器CPU的事件空间和进程遵循上诉;另一方面,突发的数据到达形成一个随机过程;对于突发数据到达的情况,用 表示组合事件空间,α3表示新的任务状态到达边缘服务器,对应的过程是一个变量序列:{α1,α2,α3...}表示事件序列的时间瞬间;而且,每时每刻 让Lk表示数据到达的大小,Lk=0表示α1和α2状态,Lk≠0表示α3的状态; 此外否则到达截止日期的任务无法计算,然后输入总数据 然后将其每时刻的计算资源状态作为一个状态样本;

通过选择状态样本将选择动作来表示如何在两个不同的相邻边缘服务器之间协同合作;对应两个不同相邻状态之间的特定变化/移动;用变量v表示不同时间状态的编号v=1,

2,…NM+3N,然后再考虑行动a(t)={av(t)},动作1×(NM+3N)取决于v的选择,对于操作的选择,有以下的行动;

当1≤v≤NM相应的动作av(t)意味着如何改变任务xnm卸载决策;具体来说,使用:如av(t)=1,则

如av(t)=0,则

是整型运算,mod(v,M)是余数运算,找到相应的服务器任务v;

当NM+1≤v≤NM+N和NM+N+1≤v≤NM+2N时,相应的动作av(t)表示为边缘服务器安排协同计算资源,动作为:如av(t)=1,则

如av(t)=0,则

其中更新计算资源由 其中Cco为边缘服务器的CPU处理计算任务的周期

数,Cco,max为CPU计算的最大周期,Ndo,tot为CPU核数。

4.根据权利要求1所述的一种基于深度强化学习的计算资源协同合作方法,其特征在于:所述步骤三中,基于CPU和计算任务作为状态样本和定义动作的选择,从而定义任意边缘服务器的系统状态,初始阶段,对于相应的状态采取对应的动作,选取其中的状态样本作为给定时间的state,并采取一个特定的行动后的动作,为求到最大累积奖励,即Q值;

Qπ(s,a)=Eπ[rt+1+γrt+1+...|At=a,St=s]

Q(s,a)←Q(s,a)+δ[r+γmaxaQ(s`,a`)-Q(s,a)]其中Q(s,a)为动作状态函数值,t时刻开始折扣,γ衰变对Q函数的影响,γ越接近1代表它对后面的决策越有影响,γ越接近0代表它越看重当前的利益价值;

这时便会有一个经验元组表Dt=(e1,…,et)来记录每组state和action的值;这时在experience replay中经验元组e1=(st,a,rt,st+1)没有满,并在experience replay中每一个时间步t中随机选择状态样本获得经验元组,然后将每一次的经验元组存放入experience replay中积攒经验。

5.根据权利要求1所述的一种基于深度强化学习的计算资源协同合作方法,其特征在于:所述步骤四中,采取与之前不同的方法,将其Experience replay中经验元组e1=(st,a,rt,st+1)带入两个相同神经网络中训练,分别是目标网络target net和评估网络eval net;

target net的输出值Qtar表示当前边缘服务器的状态样本s下选择行为a时的衰减得分,即:其中r和s`分别表示边缘服务器当前状态s下采取行为a时的相应得分和相应的下一个观测状态;γ则是衰减因子;a`为边缘服务器在状态s`时采取的行为,w`为target net的权重参数;

eval net的输出值Qeval表示当前边缘服务器的状态样本s下采取行动a时的得分:其中w为eval net的权重参数;

又采用了ε-贪心策略获取行为a,在基于网络产生决策同时,以一定的概率协作邻近单个边缘服务器的同时也可能探索多个协作的边缘服务器;不断更新经验池中的经验元组,并作为target net和eval net的输入,得出Qeval和Qtar;将Qeval和Qtar的差值作为损失函数Loss function,以梯度下降法更新评估网络的权重参数;为训练收敛,目标网络的权重参数是以每隔一段固定的时间通过把评估网络的权重参数复制过来的方法更新,模型如下:其中st和a分别表示边缘服务器当前状态和当前所作出的动作,r表示采取这个行动所得到的奖励reward,γ是期望的折算discount因子,st+1表示未来下一步所处的状态,w用于深度神经网络拟合的向量;

然后,利用梯度下降算法最小化目标网络输出与预测之间的差异,即主网输出:

Loss=(Qtraget(st,a)-Qpre(st,a,w))2

最终利用经验元组对两个神经网络的训练,不断迭代Q值,使其在边缘服务器受限计算资源状态的情况下边缘服务器将会得到一个最优近似解的解,作为边缘服务器协同合作的最优策略。