1.一种基于能量收割技术的在线无人机辅助数据收集方法,其特征在于,包括:
初始化:无人机的无线传感器网络中,有1架无人机和M个随机分布的地面传感器节点,无人机作为移动中继收集每个传感器节点采集到的采样数据并转发到数据中心,在一定时间内按照一定路径飞行,在每一个飞行时刻,无人机节点向当前时刻调度出的地面传感器节点发射无线信号,确认无人机是否需要进行数据收集和能量补充;以传感器节点所处平面为X轴和Y轴,以所述平面垂直方向为Z轴进行三维立体图初始化设计;每个所述传感器节点的位置记为Lm=[xm,ym](m=1,2,3,……,M),作为接收无人机传输数据的数据中心位置记为L0;设定无人机在空中的水平飞行高度是h米;无线传感网络中以时隙划分时间,设Tts表示一个时隙长度;初始化全局网络的策略网络参数θa和评价网络参数θc,子网络的策略网络参数θ’a=θa和评价网络参数设置为θ’c=θc;无人机的飞行模式包括工作模式和等待模式,所述工作模式为无人机进行正常飞行和转发其服务范围内的传感器节点数据;所述等待模式为当所述无人机在所述工作模式下剩余能量低于第一阈值Eth,无人机降落在地面上以避免能量不足引起意外坠毁,对应能耗为降落能耗edes;设定所述工作模式和等待模式切换的第一阈值为Eth,初始化时隙数为n=1,每经过一个时隙n自增1;初始化无人机飞行的最长时隙数为N;
步骤S1:初始化所述全局网络的策略网络参数θa和评价网络参数θc的梯度dθa=0,dθc=
0;初始化更新全局网络的时间间隔nup个时隙;无人机携带能量用E(n)表示,能耗用e(n)表示,n为时隙数;无人机初始位置所携带电量为满电量E(1)=Eumax,初始位置为Lu(1)=[x1,y1];初始化传感器节点数据的信息年龄Am(n),m=1,2,3,……,M;生命长度Um(n),m=1,2,
3,……M和队列长度qm(n),m=1,2,3,……,M;
步骤S2:无人机遍历获取时隙n初始时刻所有传感器节点数据的信息年龄、生命长度和队列长度;并将所述信息年龄、生命长度、队列长度、无人机的位置Lu与无人机携带能量E(n)作为该时隙的状态s(n),判断无人机携带能量E(n)是否小于能量阈值Eth,若是,执行步骤S3进入等待模式,若否,执行步骤S4进入工作模式,用Zm(n)∈{0,1}表示节点m在时隙n的服务状态;其中Zm(n)=1表示传感器节点m的数据上传到无人机并由无人机转发数据至数据中心,反之Zm(n)=0;因此传感器节点m的队列长度更新为:qm(n+1)=max{qm(n)‑Zm(n)qm(n),0}+Cm(n);
用 表示传感器节点m最新采样的数据包在时隙n的
生命长度;在时隙n,若有一个新的数据包到达,则其生命长度记为1,即Um(n)=1;若没有新的数据包到达,且节点将数据上传到无人机,那么传感器节点数据为空,即Um(n)=0;否则生命周期随着时隙数以1为起点递增,其更新过程为:信息年龄表示采样数据的新鲜程度,若无人机在时隙n将节点m的数据转发至数据中心,该节点信息年龄记为节点的生命长度Um(n),否则随着时隙数以1递增,其更新过程为步骤S3:无人机停止在空中飞行,选择降落在地面上,无人机依靠太阳能、风能进行能量收集,待无人机能量超过等待模式切换至工作模式的第二阈值Efl后执行步骤S4,时隙数n自增1;
步骤S4:子网络的策略网络给出状态s(n)下采取各个动作的概率π(a(n)|s(n);θ′a),子网络的评价网络给出状态s(n)下的评价价值V(s(n);θ'c),无人机执行子网络的策略网络决定的动作a(n),所述动作包括飞行动作af(n)和或选取节点传输动作ai(n);
步骤S5:判断动作a(n)中是否包括选取节点传输动作ai(n),若是,则传感器节点将其缓存内所有数据上传至无人机,由无人机转发所述数据至所述数据中心;若否,则无人机将在整个时隙内用于飞行,时隙数n自增1;
步骤S6:判断n是否为nup的倍数或n是否等于无人机飞行的最长时隙数N,若是,则分别利用所述全局网络的策略网络参数θa和评价网络参数θc的梯度dθa=0,dθc=0,更新全局网络参数θa和θc,子网络获取全局参数θ'a=θa,θ'c=θc,无人机执行a(n)后达到时隙数n为nup的倍数或n等于无人机飞行的最长时隙数N时,利用无人机所得到的nup个时隙下作出的每个动作的代价值集合c、状态集合s和动作集合a来计算相应的梯度,时隙j梯度的累积计算方式如下:其中 表示从时隙j起始的长期回报,γ为折扣因子,β为熵的权重,
利用熵H(π(s(j);θ'a))来加大动作探索;若否,则执行步骤S7;
步骤S7:判断n是否小于无人机飞行的最长时隙数N,若是,则返回步骤S2;若否,则停止数据收集,返回无人机所采集的所有传感器节点信息年龄的平均值和无人机采集过程中的能耗e(n)。
2.如权利要求1所述的基于能量收割技术的在线无人机辅助数据收集方法,其特征在于,所述传感器节点采集采样数据的方式包括:每个传感器节点根据采样策略从周围环境中采集数据,并将其整理成带有时间戳的数据包;所述数据包存储并排队在节点的缓存中形成队列;传感器节点m在时隙n的采样动作表示为Cm(n)∈{0,1},其中Cm(n)=1指传感器节点执行采样动作并将采集的所述数据包放置在缓存中,反之,则表示为Cm(n)=0。
3.如权利要求1所述的基于能量收割技术的在线无人机辅助数据收集方法,其特征在于,所述无人机执行飞行动作时,从一个位置根据飞行动作飞到另一个位置或者悬停在原地。
4.如权利要求1所述的基于能量收割技术的在线无人机辅助数据收集方法,其特征在于,所述步骤S2还包括:所述等待模式中,无人机停止在空中飞行,降落在地面对应能耗为降落能耗edes(n);
当所述无人机收集能量超过等待模式的第二阈值Efl时,无人机切换为工作模式,对应能耗为上升能耗eas(n)。
5.如权利要求4所述的基于能量收割技术的在线无人机辅助数据收集方法,其特征在于,所述上升能耗eas(n)和降落能耗edes(n)的计算公式如下:无人机垂直上升和垂直下降的功率分别为:
所以对应能耗为:
其中,vs是无人机垂直方向上的飞行速度,W是无人机质量,ρ是空气密度,R是转子半径。
6.如权利要求1所述的基于能量收割技术的在线无人机辅助数据收集方法,其特征在于,所述步骤S5包括:步骤S51:传感器节点将其缓存内所有数据上传至无人机,由无人机转发数据至数据中心,以上过程无人机均保持悬停状态,时间长度记为Tc;
步骤S52:根据传输数据长度、数据大小以及传输距离计算无人机的传输能耗etx(n),根据无人机悬停功率以及悬停时间计算无人机的悬停能耗ef,h(n);在该时隙的剩余时间Tts‑Tc内,无人机完成飞行动作,并计算其飞行能耗etf(n);
步骤S53:时隙n没有数据转发任务时,无人机将在整个时隙内用于飞行,计算无人机的飞行能耗ef(n);
步骤S54:计算时隙n初始时刻的状态s(n)采取动作a(n)的代价函数
其中, 为各传感器节点的平均信息年龄,e(n)为无
人机能耗,ζ是能耗的权重系数。
7.如权利要求6所述的基于能量收割技术的在线无人机辅助数据收集方法,其特征在于,所述飞行能耗ef(n)的计算公式如下:无人机水平飞行功率与水平飞行速度有关,表示为:
其中,Nb是旋桨个数,cb是叶旋, 是阻力系数,ωb是角速度,Ae是无人机前额参考面积;λb满足以下等式:因此,无人机的水平飞行能耗为ef(n)=PH(vh(n))Tts,传输数据时的悬停能耗为ef,h(n)=PH(0)Tc。
8.如权利要求6所述的基于能量收割技术的在线无人机辅助数据收集方法,其特征在于,所述数据传输能耗etx(n)的计算公式如下:当时隙为n时,无人机与数据中心间信道增益为h0(n),无人机传输大小为w(n)的数据包时的功率为:2
其中,Rm(n)是无人机在时隙n的数据传输速率,B是信道带宽,σ是噪声功率;无人机转发数据到数据中心的能耗包括传输能耗和悬停能耗,即
9.一种基于能量收割技术的在线无人机辅助数据收集装置,其特征在于,包括:
初始化模块,用于在一种基于能量收割技术的在线无人机辅助数据收集方法,其特征在于,包括:
初始化:无人机的无线传感器网络中,有1架无人机和M个随机分布的地面传感器节点,无人机作为移动中继收集每个传感器节点采集到的采样数据并转发到数据中心,在一定时间内按照一定路径飞行,在每一个飞行时刻,无人机节点向当前时刻调度出的地面传感器节点发射无线信号,确认无人机是否需要进行数据收集和能量补充;以传感器节点所处平面为X轴和Y轴,以所述平面垂直方向为Z轴进行三维立体图初始化设计;每个所述传感器节点的位置记为Lm=[xm,ym](m=1,2,3,……,M),作为接收无人机传输数据的数据中心位置记为L0;设定无人机在空中的水平飞行高度是h米;无线传感网络中以时隙划分时间,设Tts表示一个时隙长度;初始化全局网络的策略网络参数θa和评价网络参数θc,子网络的策略网络参数θ’a=θa和评价网络参数设置为θ’c=θc;无人机的飞行模式包括工作模式和等待模式,所述工作模式为无人机进行正常飞行和转发其服务范围内的传感器节点数据;所述等待模式为当所述无人机在所述工作模式下剩余能量低于第一阈值Eth,无人机降落在地面上以避免能量不足引起意外坠毁,对应能耗为降落能耗edes;设定所述工作模式和等待模式切换的第一阈值为Eth,初始化时隙数为n=1,每经过一个时隙n自增1;初始化无人机飞行的最长时隙数为N;初始化所述全局网络的策略网络参数θa和评价网络参数θc的梯度dθa=0,dθc=0;初始化更新全局网络的时间间隔nup个时隙;无人机携带能量用E(n)表示,能耗用e(n)表示,n为时隙数;无人机初始位置所携带电量为满电量E(1)=Eumax,初始位置为Lu(1)=[x1,y1];初始化传感器节点数据的信息年龄Am(n),m=1,2,3,……,M;生命长度Um(n),m=
1,2,3,……M和队列长度qm(n),m=1,2,3,……,M;
获取模块,其用于无人机遍历获取时隙n初始时刻所有传感器节点数据的信息年龄、生命长度和队列长度;并将所述信息年龄、生命长度、队列长度、无人机的位置Lu与无人机携带能量E(n)作为该时隙的状态s(n),判断无人机携带能量E(n)是否小于无人机能量的第一阈值Eth,若是,执行步骤S3进入等待模式,若否,执行步骤S4进入工作模式,用Zm(n)∈{0,1}表示节点m在时隙n的服务状态;其中Zm(n)=1表示传感器节点m的数据上传到无人机并由无人机转发数据至数据中心,反之Zm(n)=0;因此传感器节点m的队列长度更新为:qm(n+1)=max{qm(n)‑Zm(n)qm(n),0}+Cm(n);
用 表示传感器节点m最新采样的数据包在时隙n的
生命长度;在时隙n,若有一个新的数据包到达,则其生命长度记为1,即Um(n)=1;若没有新的数据包到达,且节点将数据上传到无人机,那么传感器节点数据为空,即Um(n)=0;否则生命周期随着时隙数以1为起点递增,其更新过程为:信息年龄表示采样数据的新鲜程度,若无人机在时隙n将节点m的数据转发至数据中心,该节点信息年龄记为节点的生命长度Um(n),否则随着时隙数以1递增,其更新过程为等待模式模块,其用于无人机停止在空中飞行,选择降落在地面上,无人机依靠太阳能、风能进行能量收集,等待能量超过第二阈值Efl后执行步骤S4,时隙数n自增1;
工作模式模块,其用于子网络的策略网络给出状态s(n)下采取各个动作的概率π(a(n)|s(n);θ′a),子网络的评价网络给出状态s(n)下的评价价值V(s(n);θ′c),无人机执行子网络的策略网络决定的动作a(n),所述动作包括飞行动作af(n)和或选取节点传输动作ai(n);
无人机飞行判断模块,其用于判断动作a(n)中是否包括选取节点传输动作ai(n),若是,则传感器节点将其缓存内所有数据上传至无人机,由无人机转发所述数据至所述数据中心;若否,则无人机将在整个时隙内用于飞行,时隙数n自增1;
无人机全局网络更新模块,其用于判断n是否为nup的倍数或n是否等于无人机飞行的最长时隙数N,若是,则分别利用所述全局网络的策略网络参数θa和评价网络参数θc的梯度dθa=0,dθc=0,更新全局网络参数θa和θc,子网络获取全局参数θ'a=θa,θ'c=θc,无人机执行a(n)后达到时隙数n为nup的倍数或n等于无人机飞行的最长时隙数N时,利用无人机所得到的nup个时隙下作出的每个动作的代价值集合c、状态集合s和动作集合a来计算相应的梯度,时隙j梯度的累积计算方式如下:其中 表示从时隙j起始的长期回报,γ为折扣因子,β为熵的权重,
利用熵H(π(s(j);θ'a))来加大动作探索;若否,则执行步骤S6;
能耗计算模块,其用于判断n是否小于无人机飞行的最长时隙数N,若是,则返回步骤S2;若否,则停止数据收集,返回无人机所采集的所有传感器节点信息年龄的平均值和无人机采集过程中的能耗e(n)。