1.一种任务卸载方法,其特征在于,包括:
执行决策过程;所述决策过程用于确定与第一终端匹配的第二终端,根据判定条件,将所述第二终端设定为所述第一终端的协作卸载终端,或者将所述第一终端设定为所述第二终端的协作卸载终端;
根据所述协作卸载终端的设定结果,确定网络状态值;
根据所述网络状态值以及所述决策过程中所执行的动作,确定即时奖励值;
根据所述即时奖励值,确定长期效用值;
确定最优决策过程;所述最优决策过程为使所述长期效用值最大化的决策过程;
以所述最优决策过程所确定的第一终端、第二终端和协作卸载终端,执行任务卸载;
所述根据判定条件,将所述第二终端设定为所述第一终端的协作卸载终端,或者将所述第一终端设定为所述第二终端的协作卸载终端,包括:确定第一卸载延迟和第二卸载延迟;所述第一卸载延迟为所述第一终端在OMA模式下的卸载延迟,所述第二卸载延迟为所述第二终端在OMA模式下的卸载延迟;
当所述第二卸载延迟小于所述第一卸载延迟,将所述第二终端设定为所述第一终端的协作卸载终端;
当所述第一卸载延迟小于所述第二卸载延迟,将所述第一终端设定为所述第二终端的协作卸载终端。
2.根据权利要求1所述的任务卸载方法,其特征在于,所述任务卸载方法还包括以下步骤:训练神经网络;所述神经网络的输入包括所述网络状态值以及所述决策过程中所执行的动作;
当所述神经网络的输出与最大化的所述长期效用值之间的偏差小于预设阈值,结束对所述神经网络的训练。
3.根据权利要求2所述的任务卸载方法,其特征在于,所述训练神经网络中,以均方误差作为损失函数。
4.根据权利要求1所述的任务卸载方法,其特征在于,所述即时奖励值为所述第一卸载延迟和所述第二卸载延迟之和的相反数。
5.根据权利要求1所述的任务卸载方法,其特征在于,当所述第二终端为所述第一终端的协作卸载终端,所述以所述最优决策过程所确定的第一终端、第二终端和协作卸载终端,执行任务卸载,包括:从所述第一终端的任务数据中分出第一部分和第二部分;
在第一时隙,由所述第一终端将所述第一部分卸载至接入点,将所述第二部分卸载至所述第二终端;
所述第二终端将接收到的所述第二部分与本地的任务数据合成后,分出第三部分和第四部分;
在第二时隙,由所述第二终端将所述第三部分卸载至接入点,对所述第四部分执行本地计算。
6.根据权利要求1所述的任务卸载方法,其特征在于,当所述第一终端为所述第二终端的协作卸载终端,所述以所述最优决策过程所确定的第一终端、第二终端和协作卸载终端,执行任务卸载,包括:从所述第二终端的任务数据中分出第一部分和第二部分;
在第一时隙,由所述第二终端将所述第一部分卸载至接入点,将所述第二部分卸载至所述第一终端;
所述第一终端将接收到的所述第二部分与本地的任务数据合成后,分出第三部分和第四部分;
在第二时隙,由所述第一终端将所述第三部分卸载至接入点,对所述第四部分执行本地计算。
7.一种任务卸载系统,其特征在于,包括:
第一单元,用于执行决策过程;所述决策过程用于确定与第一终端匹配的第二终端,根据判定条件,将所述第二终端设定为所述第一终端的协作卸载终端,或者将所述第一终端设定为所述第二终端的协作卸载终端;
第二单元,用于根据所述协作卸载终端的设定结果,确定网络状态值;
第三单元,用于根据所述网络状态值以及所述决策过程中所执行的动作,确定即时奖励值;
第四单元,用于根据所述即时奖励值,确定长期效用值;
第五单元,用于确定最优决策过程;所述最优决策过程为使所述长期效用值最大化的决策过程;
第六单元,用于以所述最优决策过程所确定的第一终端、第二终端和协作卸载终端,执行任务卸载;
所述根据判定条件,将所述第二终端设定为所述第一终端的协作卸载终端,或者将所述第一终端设定为所述第二终端的协作卸载终端,包括:确定第一卸载延迟和第二卸载延迟;所述第一卸载延迟为所述第一终端在OMA模式下的卸载延迟,所述第二卸载延迟为所述第二终端在OMA模式下的卸载延迟;
当所述第二卸载延迟小于所述第一卸载延迟,将所述第二终端设定为所述第一终端的协作卸载终端;
当所述第一卸载延迟小于所述第二卸载延迟,将所述第一终端设定为所述第二终端的协作卸载终端。
8.一种计算机装置,其特征在于,包括存储器和处理器,所述存储器用于存储至少一个程序,所述处理器用于加载所述至少一个程序以执行权利要求1‑6任一项所述方法。
9.一种存储介质,其中存储有处理器可执行的程序,其特征在于,所述处理器可执行的程序在由处理器执行时用于执行如权利要求1‑6任一项所述方法。