1.一种基于Q-Learning的无人机自组网路由方法,其特征在于,所述方法包括路由发现阶段和路由维护阶段,在路由发现阶段和路由维护阶段分别调用基于Q-Learning算法的路由决策模型得到源节点到目的节点的路由,具体包括:在路由发现阶段,在无人机自组网中源节点和目的节点首次通信前,启动路由发现,并将所有无人机节点的Q表初始化;
源节点广播RREQ消息,无人机节点将接收到的RREQ消息根据链路评估模型计算出链路质量,并基于链路质量更新到源节点的Q表,利用Q表建立出源节点到目的节点的反向路由;
所述链路质量评估模型包括对无人机节点的能量因子、稳定性因子和带宽因子进行加权求和,并将求和值作为无人机节点之间的链路质量,表示为:lq(c,x)=a
其中,lq(c,x)表示无人机节点c与无人机节点x之间的链路质量;EF(x)表示无人机节点x的能量因子,SF(c,x)表示无人机节点c与无人机节点x之间的稳定性因子,BF(c,x)表示无人机节点c与无人机节点x之间的带宽因子,a所述无人机节点的稳定性因子的计算公式表示为:
SF(c,x)=(1-β)SF
其中,SF
目的节点接收到RREQ消息后,向源节点发送RREP消息,根据链路评估模型计算出链路质量,并基于链路质量更新到目的节点的Q表,并利用Q表建立源节点到目的节点的正向路由;
在路由维护阶段,通过HELLO消息感知网络拓扑变换,根据无人机自组网环境动态地更新Q表,并根据Q表更新源节点到目的节点的正向路由;
其中,所述RREQ消息、所述RREP消息和所述HELLO消息附加有无人机节点的链路相关信息和到目的节点的最大Q值,所述链路相关信息包括剩余能量、节点位置和信道空闲时间比。
2.根据权利要求1所述的一种基于Q-Learning的无人机自组网路由方法,其特征在于,所述基于Q-Learning算法的路由决策模型将无人机自组网的网络中的分组视为智能体,分组从一个无人机传输到另一个无人机视作智能体状态的转换,并在每个无人机上均维护一个Q表;因此,在无人机自组网中通过至少包括RREQ消息、RREP消息、HELLO消息的路由控制消息探索环境,收集每个邻居节点的状态信息和链路相关信息;根据链路质量评估模型计算出链路质量,将链路质量带入Q值函数,并结合邻居节点的状态信息计算出无人机节点的Q值;在转发网络中的数据分组时,则利用无人机节点维护的Q表提供转发策略。
3.根据权利要求1或2所述的一种基于Q-Learning的无人机自组网路由方法,其特征在于,基于链路质量所更新的Q表的计算公式表示为:其中,Q
4.根据权利要求1所述的一种基于Q-Learning的无人机自组网路由方法,其特征在于,所述通过HELLO消息感知网络拓扑变换,根据无人机自组网环境动态地更新Q表,并根据Q表更新源节点到目的节点的路由包括无人机节点在收到HELLO消息后,根据链路评估模型计算出链路质量,并基于链路质量更新到源节点的Q表,利用Q表建立出源节点到目的节点的路由。
5.根据权利要求1或4所述的一种基于Q-Learning的无人机自组网路由方法,其特征在于,所述HELLO消息为自适应HELLO消息间隔,即基于网络拓扑信息,使用链路持续时间估计,根据无人机节点之间的相对运动状态计算出链路持续时间,计算出每个无人机节点到其邻居节点的最小链路持续时间,按照该最小链路持续时间确定出HELLO消息间隔。
6.根据权利要求5所述的一种基于Q-Learning的无人机自组网路由方法,其特征在于,链路持续时间的计算公式表示为:其中,LD(i,j)表示无人机节点i与无人机节点j之间的链路持续时间,R表示无人机的最大传输距离,d