1.一种基于DRL的边缘视频目标检测任务卸载方法,其特征在于,包括如下步骤:S1,建立多终端设备单MEC服务器的系统模型;
S2,建立处理视频任务的时延模型;
S3,建立处理视频任务的能耗模型;
S4,建立优化目标为最小化MEC系统任务处理时延与能耗加权成本的问题模型;
S5,设计基于深度强化学习的视频任务卸载策略;
S6,初始化网络权重、经验回放池、MEC系统各队列状态;
S7,终端设备根据卸载策略执行卸载决策并与环境交互;
S8,抽取经验样本更新网络权重;
S9,重复上述步骤S7、S8,直至奖励曲线收敛。
2.如权利要求1所述一种基于DRL的边缘视频目标检测任务卸载方法,其特征在于,步骤S1具体如下:设一个由单个MEC服务器和多个相同硬件配置的终端设备构成的MEC系统模型;其中,终端设备集合定义为 m∈M定义为设备索引;各设备通过无线连接至MEC服务器,MEC服务器为终端设备提供计算资源;
S1.1,建立视频分析任务模型
MEC系统时间由时隙集合T={1,2,...,T}来表示,时隙索引和时隙长度分别由t∈T和Δ表示;假定在每个时隙起始时刻,各终端设备均产生一个视频分析任务Vm(t)={Zm(t),Dm(t)};其中,Zm(t)表示视频任务的数据大小,Dm(t)表示该视频任务的时长;
S1.2,设计视频任务卸载决策
在视频任务执行计算前,将视频按其时间轴均等切分为多个视频片段即视频块;进而将一个完整的视频分析任务的卸载问题被转化为多个子任务卸载问题;具体地,终端设备对任务Vm(t)切分后产生的视频块数量定义为Km(t),即视频块的数量,则由式(1)表示:其中,d表示单个视频块时长;将该终端设备m在时刻t的卸载决策定义为任务Vm(t)的卸载率αm(t)∈[0,1];因此,任务Vm(t)执行卸载的视频块数量 如式(2)所示:上式中 表示向上取整;任务Vm(t)在本地计算的视频块数量 表示为:
3.如权利要求2所述一种基于DRL的边缘视频目标检测任务卸载方法,其特征在于,步骤S2具体如下:S2.1,建立视频任务本地计算的时延模型
针对视频目标检测任务的计算流程,对任务Vm(t)切分预处理后,视频块的本地计算流程为:视频编解码、深度学习模型推理和上传推理结果;针对t时刻终端设备m本地处理个视频块,计算和分析各环节的时延成本:首先,深度学习模型进行推理计算需要输入为RGB格式的帧数据,故视频块需先完成视频编解码操作;具体地,单个视频块由原数据格式即RAW格式转换为RGB格式的帧数据,这一过程的时延消耗如式(4)所示:r2r
上式中C 表示单个视频块完成r2r编解码所需周期数,r2r代表RAW to RGB; 定义为终端设备的计算能力,由周期频率表示;
视频块计算过程需要考虑其所在计算队列的状态,即t时刻终端设备m中r2r编解码队列长度 那么对于 个视频块,其中第i个视频块的排队时延 如式(5)所示:上式中,第一项表示r2r编解码队列中剩余任务的处理时延;第二项表示对前i‑1个视频块的处理时延;因此,第i个视频块完成r2r编解码产生的时延消耗如(6)所示:其次,完成r2r编解码的视频块以帧数据的形式进行深度学习模型推理环节;对于搭载GPU芯片的终端设备,其模型推理操作由该芯片完成;单个视频块在终端设备完成推理所需时延由式(7)所示:inf
上式中 表示本地终端设备的GPU工作频率;C 表示单个视频块完成模型推理所需周期数;结合上述编解码过程的时延计算,模型推理过程同样需要考虑排队时延,将定义为t时刻设备m的模型推理队列长度;本地处理的视频块数量 为零时,即本地设备只需处理推理队列剩余任务,时延消耗如式(8)表示:对于 的情况,假定 作为其视频块索引;则第i个视频块完成推理产生时延如式(9)所示:
终端设备m在t时刻本地处理完所有任务的时延成本如式(10)表示:S2.2,视频任务执行计算卸载的时延模型
终端设备对视频任务执行卸载时,其视频块的处理过程涉及:视频编解码、网络传输和深度学习模型推理;对于t时刻到达终端设备m的视频任务Vm(t),数量为 的视频块将被卸载至MEC服务器完成处理;下面分析卸载过程中各环节产生的时延消耗;
采用基于视频压缩技术的H.264格式作为计算卸载时数据传输格式,以H.264格式代表一系列视频压缩格式;
终端设备首先将视频数据由原格式转换为H.264压缩格式即RAW to H.264,即r2h;第j个视频块编解码时延需考虑自身完成r2h编解码耗时及其排队耗时, 由式(11)给出:上式中 代表t时刻r2h编解码队列长度;单个视频块r2h耗时 表示单个视频块完成r2h编解码所需计算资源;
完成r2h编解码的H.264格式数据通过无线链路上传至MEC服务器,该传输过程产生的时延将主要由视频数据量及传输速率决定;t时刻终端设备与MEC服务器间的上行传输速率r(t)根据香农定理得到,具体如下:其中,W(t)表示t时刻网络信道带宽;h表示终端设备与MEC服务器之间的信道增益;P表2
示终端设备传输功率;σ为高斯白噪声功率;由于所提系统场景时隙间隔较小,因此假定时隙t起始时刻到时隙t+1起始时刻前,传输速率r(t)保持不变;
采用如下方式对其传输时延进行近似表示,具体如式(13)所示:上式中 表示视频块j开始处理前的等待时长,其对应计算方式如式(14):式(14)中, 定义为时刻t下终端设备m的网络传输队列长度;max(·)项中第一项为传输队列剩余任务的预期传输耗时,第二项为视频块j进行r2h编解码所需排队时间;
式(13)的max(·)项用于近似表示视频块j从开始处理至到达MEC服务器耗时,其中第一项表示该视频块r2h编解码耗时,第二项表示其预期传输耗时;
基于H.264格式的视频块到达MEC服务器后,MEC服务器需进行编解码将其转换为RGB帧数据即H.264to RGB,简称h2r,用于后续深度学习模型推理;给出视频块j由设备m产生至到达服务器完成h2r编解码的时延消耗:s,h2r
上式 表示视频块在r2h队列的排队时延;L 表示自身h2r编解码耗时;
视频块j在MEC服务器完成模型推理所耗时延由式(16)表示:式(16)中max(·)项表示视频块j开始推理前的等待时间,其表示视频块j开始推理需满足两个前提:1)该视频块完成了h2r编解码;2)前j‑1个视频块均完成模型推理;另外,表示MEC服务器的GPU工作频率;
终端设备m在t时刻卸载 个视频块,其预期时延消耗为:
终端设备m对任务Vm(t)执行卸载决策αm(t),完成全部任务的预期时延Lm(t)由本地计算时延及卸载计算时延决定;具体如式(18)所示:
4.如权利要求3所述一种基于DRL的边缘视频目标检测任务卸载方法,其特征在于,步骤S3具体如下:S3.1,计算终端设备能耗
视频任务在本地终端计算产生的能耗主要由r2r编解码、r2h编解码和模型推理决定,其中r2r编解码能耗 和r2h编解码能耗 如式(19)和式(20)所示:上式中κ表示终端设备能耗系数,该数值取决于设备芯片; 和分别表示单个视频块在本地完成r2r编解码和r2h编解码产生的能耗;
终端设备利用GPU芯片进行模型推理计算,该过程产生能耗主要由本地处理视频块数量 和设备GPU工作频率决定,具体如式(21)所示:t时刻终端设备m处理任务Vm(t),在其本地产生总能耗 为:S3.2,计算网络传输能耗
终端设备对任务执行计算卸载时产生能耗,主要由卸载视频块数量 视频块数据量Zm(t)/Km(t)及上行链路传输速率r(t)决定,如式(23)所示:S3.3,计算MEC服务器能耗
终端设备m卸载数量为 的视频块在MEC服务器完成h2r编解码产生能耗 如式(24)所示:s
κ表示MEC服务器的能耗系数, 表示单个视频块完成h2r编解码产生的能耗; 表示单个视频块在服务器完成推理产生的能耗;因此MEC服务器对视频块进行模型推理的能耗如式(25)所示:对于t时刻到达终端设备m的任务Vm(t),MEC产生对应能耗为:对于t时刻到达MEC系统各设备的视频任务来说,其处理产生能耗总结为:
5.如权利要求4所述一种基于DRL的边缘视频目标检测任务卸载方法,其特征在于,步骤S4具体如下:将终端设备集合 与一个MEC服务器作为一个MEC系统,整个MEC系统时延相当于全部设备任务处理时延的最大值即以最后一个任务完成的时刻视作全部任务处理完成,进而所有终端设备在t时刻的任务预期完成时延由式(28)表示:L(t)=(L1(t),...,Lm(t),...,LM(t)) (28)结合上一步骤建立的能耗成本函数E(t),将时延与能耗的加权和作为MEC系统成本;因此优化目标为通过联合优化各终端设备卸载决策,最小化MEC系统成本函数;将α(t)=(α1(t),α2(t),...,αM(t))定义为所有终端设备的联合卸载决策向量;该问题模型如式(29)所示:上式中λ1和λ2分别表示时延和能耗的权衡系数。
6.如权利要求5所述一种基于DRL的边缘视频目标检测任务卸载方法,其特征在于,步骤S5具体如下:采用双延迟深度确定性策略梯度TD3算法来学习最优卸载决策;
S5.1,建立马尔科夫决策过程模型
马尔科夫决策过程主要包含三个关键要素:状态、动作和奖励,t时刻的状态空间S(t)定义为任务状态、终端设备与服务器队列状态和网络带宽状态的组合向量,如式(30)表示:式中向量Z(t)和向量D(t)分别表示终端设备集合的任务数据量及其时长,具体表示为l sZ(t)=(Z1(t),Z2(t),...,ZM(t)),D(t)=(D1(t),D2(t),...,DM(t));向量Q (t)、Q (t)和transQ (t)分别表示t时刻各设备队列状态,如(31)、式(32)和式(33)所示:s s,h2r s,inf
Q(t)=(Q (t),Q (t)) (32)式(30)中W(t)表示当前时刻带宽; 表示网络动态预测信息;
动作空间A(t)定义为全部终端设备组成的卸载决策向量,具体表示为将奖励定义为目标函数的负相关函数,奖励函数R(t)定义为R(t)=‑(λ1max(L(t))+λ2E(t));
S5.2,构建基于LSTM的网络动态性预测模块
LSTM模型中包含编码器与解码器,将长度为H的历史带宽序列作为编码器输入,编码器对输入序列提取特征;解码器根据特征输出目标序列,通过一个全连接层输出对下一时隙的网络状态预测 H维带宽序列表示为W(t)=(W(t‑H),...,W(t‑2),W(t‑1)),1≤H≤T,
1≤t≤T;
l s trans
将 与原状态向量(Z(t),D(t),Q (t),Q (t),Q (t),W(t))拼接组成新的状态向量S(t),即式(30)所示向量;
S5.3,改进原始经验回放机制
算法训练阶段设定一系列基准奖励方案,然后将实际经验样本与其基准奖励进行奖励值比较,最后按分级标准存入相应经验回放池;
将全本地计算策略与全卸载策略作为基准奖励方案,其中,经验回放池A用于存放奖励值高于基准奖励的经验样本;经验回放池B用于存放奖励较低的经验样本;X表示算法更新时采样的样本数量,δ表示样本的采样权重,有0≤δ≤1。
7.如权利要求6所述一种基于DRL的边缘视频目标检测任务卸载方法,其特征在于,步骤S6具体如下:TD3算法主体由Actor网络与Critic网络构成,该算法为解决过估计问题提出了具有6个神经网络的模型结构,分别为:Actor网络及其目标网络、两个Critic网络,以μ及两个Critic目标网络;在训练环节开始前,先随机初始化Actor网络权重θ和Critic网络权重 和 再将其各自目标网络权重拷贝初始化;
设定双经验回放池具有相同的最大容量,并清空经验回放池;经验回放池用于存储智能体与环境交互产生的经验样本,每个经验样本通常由四元组(S(t),A(t),R(t),S(t+1))表示;同时为DRL算法网络更新权重提供经验样本,具体采样方式为步骤S5中双经验回放池根据权重系数δ进行采样;
训练环节开始前,初始化MEC系统中各终端设备与MEC服务器内部队列状态;获取环境起始时刻状态S(1),并重置历史网络带宽序列W(1)为H维全零向量。
8.如权利要求7所述一种基于DRL的边缘视频目标检测任务卸载方法,其特征在于,步骤S7具体如下:将当前时刻状态向量S(t)输出动作向量A(t),即各终端设备卸载决策,具体方式如式(34)所示:上式中σ0代表噪声策略,c代表噪声临界值;
各终端设备根据动作向量A(t)对视频任务执行卸载决策,并由上述奖励函数获得即时奖励R(t);环境状态由S(t)更新为S(t+1),同时更新历史网络带宽序列W(t);将本次经验样本(S(t),A(t),R(t),S(t+1))依据基准奖励存储于相应经验回放池。
9.如权利要求8所述一种基于DRL的边缘视频目标检测任务卸载方法,其特征在于,步骤S8具体如下:网络权重每次更新时抽取的经验样本数目为X,根据采样系数δ分别从经验回放池A和经验回放池B中采样经验样本,最后得到X个样本(Si,Ai,Ri,Si+1);Actor网络和Critic网络采用计算梯度的方式更新权重,两者的目标网络以软更新的方式更新权重。
10.一种基于DRL的边缘视频目标检测任务卸载系统,其特征在于,包括如下模块:系统模型建立模块,建立多终端设备单MEC服务器的系统模型;
时延模型建立模块,建立处理视频任务的时延模型;
能耗模型建立模块,建立处理视频任务的能耗模型;
问题模型建立模块,建立优化目标为最小化MEC系统任务处理时延与能耗加权成本的问题模型;
视频任务卸载策略设计模块,设计基于深度强化学习的视频任务卸载策略;
初始化模块,初始化网络权重、经验回放池、MEC系统各队列状态;
执行模块,终端设备根据卸载策略执行卸载决策并与环境交互;
更新权重模块,抽取经验样本更新网络权重;
迭代模块,使执行模块、更新权重模块重复执行,直至奖励曲线收敛。