1.一种基于DRL的边缘视频目标检测任务卸载方法,其特征在于,包括如下步骤:S1,建立多终端设备单MEC服务器的系统模型;
S2,建立处理视频任务的时延模型;
S3,建立处理视频任务的能耗模型;
S4,建立优化目标为最小化MEC系统任务处理时延与能耗加权成本的问题模型;
S5,设计基于深度强化学习的视频任务卸载策略;
S6,初始化网络权重、经验回放池、MEC系统各队列状态;
S7,终端设备根据卸载策略执行卸载决策并与环境交互;
S8,抽取经验样本更新网络权重;
S9,重复上述步骤S7、S8,直至奖励曲线收敛;
步骤S4具体如下:将终端设备集合M={1,2,...,M}与一个MEC服务器作为一个MEC系统,整个MEC系统时延相当于全部设备任务处理时延的最大值即以最后一个任务完成的时刻视作全部任务处理完成,进而所有终端设备在t时刻的任务预期完成时延由式(28)表示:L(t)=(L
结合上一步骤建立的能耗成本函数E(t),将时延与能耗的加权和作为MEC系统成本;因此优化目标为通过联合优化各终端设备卸载决策,最小化MEC系统成本函数;将α(t)=(α上式中λ
步骤S5具体如下:采用双延迟深度确定性策略梯度TD3算法来学习最优卸载决策;
S5.1,建立马尔科夫决策过程模型
马尔科夫决策过程包含三个关键要素:状态、动作和奖励,t时刻的状态空间S(t)定义为任务状态、终端设备与服务器队列状态和网络带宽状态的组合向量,如式(30)表示:式中向量Z(t)和向量D(t)分别表示终端设备集合的任务数据量及其时长,具体表示为Z(t)=(ZQ
式(30)中W(t)表示当前时刻带宽;
动作空间A(t)定义为全部终端设备组成的卸载决策向量,具体表示为将奖励定义为目标函数的负相关函数,奖励函数R(t)定义为R(t)=-(λS5.2,构建基于LSTM的网络动态性预测模块LSTM模型中包含编码器与解码器,将长度为H的历史带宽序列作为编码器输入,编码器对输入序列提取特征;解码器根据特征输出目标序列,通过一个全连接层输出对下一时隙的网络状态预测将
S5.3,改进原始经验回放机制
算法训练阶段设定一系列基准奖励方案,然后将实际经验样本与其基准奖励进行奖励值比较,最后按分级标准存入相应经验回放池;
将全本地计算策略与全卸载策略作为基准奖励方案,其中,经验回放池A用于存放奖励值高于基准奖励的经验样本;经验回放池B用于存放奖励低于或等于基准奖励的经验样本;X表示算法更新时采样的样本数量,δ表示样本的采样权重,有0≤δ≤1;
步骤S6具体如下:TD3算法主体由Actor网络与Critic网络构成,该算法为解决过估计问题提出了具有6个神经网络的模型结构,分别为:Actor网络及其目标网络、两个Critic网络,以及两个Critic目标网络;在训练环节开始前,先随机初始化Actor网络权重θ设定双经验回放池具有相同的最大容量,并清空经验回放池;经验回放池用于存储智能体与环境交互产生的经验样本,每个经验样本由四元组(S(t),A(t),R(t),S(t+1))表示;同时为DRL算法网络更新权重提供经验样本,具体采样方式为步骤S5中双经验回放池根据权重系数δ进行采样;
训练环节开始前,初始化MEC系统中各终端设备与MEC服务器内部队列状态;获取环境起始时刻状态S(1),并重置历史网络带宽序列W(1)为H维全零向量。
2.如权利要求1所述一种基于DRL的边缘视频目标检测任务卸载方法,其特征在于,步骤S1具体如下:设一个由单个MEC服务器和多个相同硬件配置的终端设备构成的MEC系统模型;其中,终端设备集合定义为M=={1,2,...,M},m∈M定义为设备索引;各设备通过无线连接至MEC服务器,MEC服务器为终端设备提供计算资源;
S1.1,建立视频分析任务模型
MEC系统时间由时隙集合T={1,2,...,T}来表示,时隙索引和时隙长度分别由t∈T和Δ表示;假定在每个时隙起始时刻,各终端设备均产生一个视频分析任务VS1.2,设计视频任务卸载决策
在视频任务执行计算前,将视频按其时间轴均等切分为多个视频片段即视频块;进而将一个完整的视频分析任务的卸载问题被转化为多个子任务卸载问题;具体地,终端设备对任务V其中,d表示单个视频块时长;将该终端设备m在时刻t的卸载决策定义为任务V上式中
3.如权利要求2所述一种基于DRL的边缘视频目标检测任务卸载方法,其特征在于,步骤S2具体如下:S2.1,建立视频任务本地计算的时延模型
针对视频目标检测任务的计算流程,对任务V
首先,深度学习模型进行推理计算需要输入为RGB格式的帧数据,故视频块需先完成视频编解码操作;具体地,单个视频块由原数据格式即RAW格式转换为RGB格式的帧数据,这一过程的时延消耗如式(4)所示:上式中C
视频块计算过程需要考虑其所在计算队列的状态,即t时刻终端设备m中r2r编解码队列长度上式中,第一项表示r2r编解码队列中剩余任务的处理时延;第二项表示对前i-1个视频块的处理时延;因此,第i个视频块完成r2r编解码产生的时延消耗如(6)所示:其次,完成r2r编解码的视频块以帧数据的形式进行深度学习模型推理环节;对于搭载GPU芯片的终端设备,其模型推理操作由该芯片完成;单个视频块在终端设备完成推理所需时延由式(7)所示:上式中
对于
终端设备m在t时刻本地处理完所有任务的时延成本如式(10)表示:S2.2,视频任务执行计算卸载的时延模型
终端设备对视频任务执行卸载时,其视频块的处理过程涉及:视频编解码、网络传输和深度学习模型推理;对于t时刻到达终端设备m的视频任务V采用基于视频压缩技术的H.264格式作为计算卸载时数据传输格式,以H.264格式代表一系列视频压缩格式;
终端设备首先将视频数据由原格式转换为H.264压缩格式即RAW to H.264,即r2h;第j个视频块编解码时延需考虑自身完成r2h编解码耗时及其排队耗时,上式中
完成r2h编解码的H.264格式数据通过无线链路上传至MEC服务器,该传输过程产生的时延将由视频数据量及传输速率决定;t时刻终端设备与MEC服务器间的上行传输速率r(t)根据香农定理得到,具体如下:其中,W(t)表示t时刻网络信道带宽;h表示终端设备与MEC服务器之间的信道增益;P表示终端设备传输功率;σ采用如下方式对其传输时延进行表示,具体如式(13)所示:上式中
式(14)中,
式(13)的max(·)项用于表示视频块j从开始处理至到达MEC服务器耗时,其中第一项表示该视频块r2h编解码耗时,第二项表示其预期传输耗时;
基于H.264格式的视频块到达MEC服务器后,MEC服务器需进行编解码将其转换为RGB帧数据即H.264to RGB,简称h2r,用于后续深度学习模型推理;给出视频块j由设备m产生至到达服务器完成h2r编解码的时延消耗:上式
视频块j在MEC服务器完成模型推理所耗时延由式(16)表示:式(16)中max(·)项表示视频块j开始推理前的等待时间,其表示视频块j开始推理需满足两个前提:1)该视频块完成了h2r编解码;2)前j-1个视频块均完成模型推理;另外,终端设备m在t时刻卸载
终端设备m对任务V
4.如权利要求3所述一种基于DRL的边缘视频目标检测任务卸载方法,其特征在于,步骤S3具体如下:S3.1,计算终端设备能耗
视频任务在本地终端计算产生的能耗由r2r编解码、r2h编解码和模型推理决定,其中r2r编解码能耗上式中κ表示终端设备能耗系数,该数值取决于设备芯片;
终端设备利用GPU芯片进行模型推理计算,该过程产生能耗由本地处理视频块数量t时刻终端设备m处理任务V
S3.2,计算网络传输能耗
终端设备对任务执行计算卸载时产生能耗,由卸载视频块数量S3.3,计算MEC服务器能耗
终端设备m卸载数量为
κ
对于t时刻到达终端设备m的任务V
对于t时刻到达MEC系统各设备的视频任务来说,其处理产生能耗总结为:
5.如权利要求1所述一种基于DRL的边缘视频目标检测任务卸载方法,其特征在于,步骤S7具体如下:将当前时刻状态向量S(t)输出动作向量A(t),即各终端设备卸载决策,具体方式如式(34)所示:上式中,σ
各终端设备根据动作向量A(t)对视频任务执行卸载决策,并由上述奖励函数获得即时奖励R(t);环境状态由S(t)更新为S(t+1),同时更新历史网络带宽序列W(t);将本次经验样本(S(t),A(t),R(t),S(t+1))依据基准奖励存储于相应经验回放池。
6.如权利要求5所述一种基于DRL的边缘视频目标检测任务卸载方法,其特征在于,步骤S8具体如下:网络权重每次更新时抽取的经验样本数目为X,根据采样系数δ分别从经验回放池A和经验回放池B中采样经验样本,最后得到X个样本(S
7.一种基于DRL的边缘视频目标检测任务卸载系统,其特征在于,包括如下模块:系统模型建立模块,建立多终端设备单MEC服务器的系统模型;
时延模型建立模块,建立处理视频任务的时延模型;
能耗模型建立模块,建立处理视频任务的能耗模型;
问题模型建立模块,建立优化目标为最小化MEC系统任务处理时延与能耗加权成本的问题模型;
视频任务卸载策略设计模块,设计基于深度强化学习的视频任务卸载策略;
初始化模块,初始化网络权重、经验回放池、MEC系统各队列状态;
执行模块,终端设备根据卸载策略执行卸载决策并与环境交互;
更新权重模块,抽取经验样本更新网络权重;
迭代模块,使执行模块、更新权重模块重复执行,直至奖励曲线收敛;
问题模型建立模块具体如下:将终端设备集合M={1,2,...,M}与一个MEC服务器作为一个MEC系统,整个MEC系统时延相当于全部设备任务处理时延的最大值即以最后一个任务完成的时刻视作全部任务处理完成,进而所有终端设备在t时刻的任务预期完成时延由式(28)表示:L(t)=(L
结合上一步骤建立的能耗成本函数E(t),将时延与能耗的加权和作为MEC系统成本;因此优化目标为通过联合优化各终端设备卸载决策,最小化MEC系统成本函数;将α(t)=(α上式中λ
视频任务卸载策略设计模块具体如下:采用双延迟深度确定性策略梯度TD3算法来学习最优卸载决策;
S5.1,建立马尔科夫决策过程模型
马尔科夫决策过程包含三个关键要素:状态、动作和奖励,t时刻的状态空间S(t)定义为任务状态、终端设备与服务器队列状态和网络带宽状态的组合向量,如式(30)表示:式中向量Z(t)和向量D(t)分别表示终端设备集合的任务数据量及其时长,具体表示为Z(t)=(ZQ
式(30)中W(t)表示当前时刻带宽;
动作空间A(t)定义为全部终端设备组成的卸载决策向量,具体表示为将奖励定义为目标函数的负相关函数,奖励函数R(t)定义为R(t)=-(λS5.2,构建基于LSTM的网络动态性预测模块LSTM模型中包含编码器与解码器,将长度为H的历史带宽序列作为编码器输入,编码器对输入序列提取特征;解码器根据特征输出目标序列,通过一个全连接层输出对下一时隙的网络状态预测将
S5.3,改进原始经验回放机制
算法训练阶段设定一系列基准奖励方案,然后将实际经验样本与其基准奖励进行奖励值比较,最后按分级标准存入相应经验回放池;
将全本地计算策略与全卸载策略作为基准奖励方案,其中,经验回放池A用于存放奖励值高于基准奖励的经验样本;经验回放池B用于存放奖励的经验样本;X表示算法更新时采样的样本数量,δ表示样本的采样权重,有0≤δ≤1;
初始化模块具体如下:TD3算法主体由Actor网络与Critic网络构成,该算法为解决过估计问题提出了具有6个神经网络的模型结构,分别为:Actor网络及其目标网络、两个Critic网络,以及两个Critic目标网络;在训练环节开始前,先随机初始化Actor网络权重θ设定双经验回放池具有相同的最大容量,并清空经验回放池;经验回放池用于存储智能体与环境交互产生的经验样本,每个经验样本由四元组(S(t),A(t),R(t),S(t+1))表示;同时为DRL算法网络更新权重提供经验样本,具体采样方式为步骤S5中双经验回放池根据权重系数δ进行采样;
训练环节开始前,初始化MEC系统中各终端设备与MEC服务器内部队列状态;获取环境起始时刻状态S(1),并重置历史网络带宽序列W(1)为H维全零向量。