1.一种无线体域网能耗和时延加权最小的安全路由选择方法,其特征在于,包括以下步骤:S1、初始化阶段,各节点获得网络的基本状态信息并得到节点间的配置参数;
S2、根据网络参数信息,以最小化加权的能耗和时延为目标函数,以无线体域网安全中断概率和连接成功概率为约束,建立离散马尔科夫链优化模型;
S3、将决策问题分为多个时间阶段,通过贝尔曼方程的价值函数,把一阶段的最优解转化为下一阶段最优解的子问题,由最终状态的最优决策迭代求解得到初始状态的最优决策;
S4、通过定义状态的占有率和不确定性来决定下一状态的优先级,同时定义自适应最大深度终止准则;
S5、基于启发式搜索算法,初始化状态价值的上下边界,利用优先级确定动态规划算法的下一状态选择,并且确定最终能耗和时延的最优安全路由选择策略。
2.根据权利要求1所述的一种无线体域网能耗和时延加权最小的安全路由选择方法,其特征在于,所述步骤S1中的初始化阶段,节点获取位置信息的方法,包括:节点之间的参数包括邻居节点的信息,通过HELLO包交互获取邻居节点的位置信息,节点通过邻居节点的位置信息计算得到与邻居节点之间的距离,以及交换彼此的操作权限信息。
3.根据权利要求2所述的一种无线体域网能耗和时延加权最小的安全路由选择方法,其特征在于,所述步骤S2中,根据与邻居节点之间的距离信息,在选择动作a作为发送节点的情况下从状态x转移到状态y的马尔科夫链状态转移概率πxy(a)表达式如下:情况1指从保密消息未被窃听的x状态转移到保密消息未被窃听的邻居y状态;情况2指从保密消息未被窃听的x状态转移到保密消息被窃听的邻居y状态;情况3指从保密消息已经被窃听的x状态转移到保密消息已经被窃听的邻居y状态;情况4指x状态不变的情况;不属于上述四种情况都被归为其他情况;
其中,马尔科夫链的状态用 来表征, 表示x状态时所有已经解码保密消息的节点集合,ω(x)表示保密消息是否被窃听者窃听;q(a)表示选择动作a为发送节点时的安全中断概率,m代表状态转移过程中增加的已解码节点,p(a,m)表示从节点a发送保密消息到节点m的连接成功概率。
4.根据权利要求3所述的一种无线体域网能耗和时延加权最小的安全路由选择方法,其特征在于,所述步骤S2中,马尔科夫链模型的建立如下:在无线体域网模型中,目标是联合优化时延和能耗两个指标,第i次状态转移的成本函数c(·)由时延cD(·)和能耗cE(·)两个部分组成,表达式如下:其中, 是在这一状态转移过程中接收信号所需要
的能耗成本, 是在策略A(·)下状态xi在已经解码保密消息的集合 中选择的中继节点个数, 是从状态xi转移到状态xi+1过程中增加的已解码保密消息的节点数量, 是考虑节点接收所消耗的能量参数;cD=1是时延成本,通过跳数来表征时延;η是代表权值,用于平衡能耗成本和时延成本;
建立离散马尔科夫链优化模型,其形式如下:
在式(3)中,目标函数定义为联合能耗和时延,i表示第i次状态转移,xi表示第i个状态,E[·]为数学期望算子,c(·)表示状态转移过程中的产生的代价,A代表所有的路由选择策略集合,δ(·)代表在马尔科夫链模型中安全中断的定义;
约束条件为保密性约束,其阈值为∈,且
其中,ω(xi)=0表示在此状态下保密消息未被窃听,若被窃听其值为1;
利用拉格朗日乘子法将有约束的优化问题转化为无约束的优化问题;
对于给定的λ,将加权能耗和时延的成本函数 重新定义为
相应的,在策略A(·)下给定λ的无约束目标函数 表达式如下:其中,x0代表初始状态, 集合表示在没有安全中断概率约束的情况下的所有可能策略集,A(·)表示策略函数。
5.根据权利要求4所述的一种无线体域网能耗和时延加权最小的安全路由选择方法,其特征在于,所述步骤S3中,根据动作a下从状态x转移到状态y的马尔科夫链状态转移概率πxy(a),将优化目标转换成贝尔曼方程形式如下:其中,γ∈[0,1)是贝尔曼方程中的折扣因子, 表示状态x的邻居状态集合,A*(·)为最佳策略, 是给定λ和A(·)策略下邻居状态y的目标值;
进一步转换后获得状态s的贝尔曼价值函数V(s)形式如下:其中,C(s,a,s′)是在选择动作a时从状态s转移到状态s′的实际成本函数,γ∈[0,1)是贝尔曼方程中的折扣因子, 表示状态s的邻居状态集合,用 代表所有吸收状态集合,即目标节点已经解码保密消息的状态,对于目标状态 C(s,a,s′)=0;
a
T(s,s′)表示在动作a下从状态s转移到状态s′的状态转移概率;
根据启发式搜索算法的思想,基于先验边界信息hL和hU,采用根据优先级选择后继状态的聚焦实时动态规划算法,获得状态价值的最优值V*满足hL≤V*≤hU,对于目标状态hL(s)=hU(s)=0。
6.根据权利要求5所述的一种无线体域网能耗和时延加权最小的安全路由选择方法,其特征在于,所述步骤S4中,状态优先级的计算及增量搜索图拓展时边缘状态节点的选择;
增量搜索图中的点就是马尔科夫过程中的状态,用Wπ(s)表征在策略π的情况下,状态节点s在未到未知区域前每个执行的平均时间步数,将Wπ(s)称作在策略π下状态的占有率,表达式如下:其中,s0代表初始状态, 且 代表内部状态节点, 代表边缘状态节点,1-γ表示在任意时间步数停止的概率;
边缘状态节点的Wπ(s)表明其与策略的相关性,值越大相关性越大;
Tπ(s)(s,s′)表示在策略π下从状态s到状态s′的状态转移概率;
在聚焦实时动态规划算法中,为了选择扩展的边缘状态节点,首先定义一个状态s的超额不确定性Δ(s):Δ(s)=|VU(s)-VL(s)|-∈/2 (10)其中,VU(s)和VL(s)分别表示状态s的状态价值上下限,∈表示误差值;
根据超额不确定性,获得状态s的优先级f(s)表达式如下:其中,式(11)为边缘状态节点的优先级,式(12)为内部状态节点的优先级;
在聚焦实时动态规划算法中,选择优先级最高的状态节点进行扩展;
其中,最佳行动a*依据状态价值上限贪婪地选择;
在每次更新状态节点时,重新计算优先级f(s)以及边界状态价值上下限VU(s)和VL(s)。
7.根据权利要求6所述的一种无线体域网能耗和时延加权最小的安全路由选择方法,其特征在于,所述步骤S4中,聚焦实时动态规划算法的两个试验终止标准,包括:其一,超额不确定度满足条件Δ(s)≤0,则试验终止;
其二,H为试验最大深度,当试验到达的深度h≥H时,则试验终止;将H初始化为H0=1,根据试验统计作为反馈来自适应地调整H;在反馈机制中,每次试验都会更新质量得分Q,其旨在反应增加探索深度的有用程度,质量得分的表达式如下:Q=θW (13)其中,θ代表状态价值上限值改变量,W代表状态占有率;
在每次试验之后,如果增加最大探索深度的平均质量分数比不增加的更好,则最大探索深度H增加且H=kHH (14)其中,kH是每次增加探索深度的比例。
8.如权利要求7所述的一种无线体域网能耗和时延加权最小的安全路由选择方法,其特征在于,基于启发式搜索的聚焦实时动态规划算法来解决无线体域网能耗和时延最小的安全路由选择问题,具体步骤如下:(1)随机生成一个无线体域网拓扑,计算各节点间的距离,初始化最大探索深度H0,以及初始状态s0的状态价值上限s0U和状态价值下限s0L;
(2)判断初始状态上下限差是否大于∈;若是,跳转至步骤(3);否则结束试验,获得最小化能耗和时延的随机动态系统控制策略;
(3)将平均质量分数Q初始化为0,实际探索深度为0,状态s为初始状态,初始状态的占有率W=1;
(4)根据状态价值上下限和优先级计算公式(11)和(12),遍历所有可选动作,由价值函数式(8)计算出其状态价值,即获得最优动作、选择扩展的状态以及状态价值上限的变化量;
(5)根据式(13)更新质量分数,判断是否满足任一试验终止准则;若满足则返回更新状态价值上下限和优先级;否则,更新s=s*, h=h+1,跳转至步骤(4);
(6)通过比较增加探索深度后的平均质量分数是否更好;若是,则增加最大探索深度;
否则,不增加;
(7)跳转至步骤(2)。