1.无线自回传小基站接入控制与资源分配联合优化方法,其特征在于,该方法包括以下步骤:
S1:在每个用户的平均时延约束以及每个基站的传输功率约束的前提下,使用马尔科夫决策过程对无线自回传小基站的无线资源分配方法建立联合最大化频谱效率和能量效率的多目标优化模型;
S2:在用户数据包的随机动态到达环境下,使用近似动态规划的方法为任一动态到达的用户需求制定最佳的接入与资源分配策略,从而使系统在相对长期的资源分配中获得更高的频谱效率和能效;
引入决策后状态,表示根据当前t时隙的状态,实施基站接纳当前用户的接入,并按照用户需求分配频谱资源和配置基站传输功率的决策之后而新的用户需求尚未到达的系统状态;
使用基于近似动态规划的方法把决策后状态的值函数用带参的线性函数近似拟合处理;
每个离散时隙t上,基于近似动态规划的接入与回传一体化小基站资源动态分配方法,具体步骤如下:
S21:在时隙t开始时,对每个状态,初始化其值函数,并选择初始状态,初始化折扣因子,设置初始时间为0,行为探索率为0.1,初始拉格朗日乘子为0;
S22:当时隙在0到总周期T的区间内时执行如下:使用ε‑贪心策略对行为空间进行探索,对新用户的需求实施是否接入、对应的频谱资源分配策略和基站传输功率的配置;对最优近似值函数求解,并令此时的解为以上最大化问题的解;
S23:根据基于随机梯度法更新待估参数的样本值函数不断逼近近似值函数的方法求出的最接近真实值函数的近似值函数,根据基于蒙特卡罗方法的外部用户需求随机变量采样算法对外部用户需求随机变量进行一次采样;根据梯度法更新拉格朗日乘子,通常迭代步长为递减函数或常数;
S24:更新时间,并根据系统状态转移概率的转移方程计算t+1时隙的系统状态。
2.根据权利要求1所述的无线自回传小基站接入控制与资源分配联合优化方法,所述步骤S1中,
所述的每个用户的平均时延约束是:每个用户的平均时延都必须不大于一个固定值其中平均时延和平均队列长度成线性关系,把平均时延映射到平均队列长度;即每个用户平均队列长度都必须不大于一个固定值,此固定值为平均队列长度的门限值;
所述的每个基站的传输功率约束是:系统中每个基站都预先设置有不同的资源类型与数量,每个基站的传输功率约束考虑如下:其中pi(t)为基站i在时隙t时的传输功率,按从小到大的功率等级顺序有pi(t)=[p1(t),p2(t),...,pl(t),...,pL(t)],其中l=1,2,...L分别表示基站的功率等级,I表示基站集合中任一元素,pmax表示基站最大的传输功率。
3.根据权利要求2所述的无线自回传小基站接入控制与资源分配联合优化方法,其特征在于,系统中用户在下一时隙t+1的队列长度更新过程表示为:Qi,j(t+1)=min[Qi,j(t)+ai,j(t)‑bi,j(t),B],i=1,2,...,i...,I,j=1,2,...,j...,J;
上式中Qi,j(t)为时隙t时用户在宏基站或小基站处的队列长度,当i=1为时隙t时宏基站用户在MBS处的队列,当i>1为时隙t小基站用户在联合宏基站和小基站处的队列长度;
上式中ai,j(t),当i=1是用户在时隙t开始到达宏基站的数据包数量,当i>1为时隙t到达宏基站的小基站用户的随机包数量;
上式中bi,j(t),当i=1是宏基站MBS在时隙t向宏用户发送的数据包数量,当i>1为小基站在时隙t发送的数据包数量,B为每个有限长度的缓冲区可以容忍的最大数据队列长度;
上式中Qi,j(t+1),当i=1是为下一个调度时隙t+1时用户k在宏基站处的队列长度,为下一个调度时隙t+1时联合宏基站和小基站处的队列长度。
4.根据权利要求1所述的无线自回传小基站接入控制与资源分配联合优化方法,其特征在于,所述步骤S1中,所述的最大化频谱效率和能量效率问题,即长期最大化频谱效率(Spectral efficiency,SE)的同时最小化其网络功率总消耗问题,建模为如下马尔科夫决策过程问题:
系统状态空间:时隙t的系统全局状态空间由时隙t时用户在基站处队列积压的长度和时隙t新的用户需求到达之前基站的资源使用状态组成;
行动空间:MDP(Markov decision process,马尔科夫决策过程)的一个策略是一个从系统状态空间到行动空间的映射,其确定了当系统处于任一状态时,系统根据当前到达的用户需求所采取的行动;
状态转移概率:当前有用户需求到达时,在当前系统状态下,根据其所对应的决策采取行动后,转移到系统的下一状态的概率;
回报函数:在时隙t时,状态采取行动后到达下一状态的最大单步收益函数。
5.根据权利要求4所述的无线自回传小基站接入控制与资源分配联合优化方法,其特征在于,
系统对当前状态可采取的每个决策包括基站是否接纳当前用户的接入,也包括对新用户的需求所对应的频谱资源分配策略和基站的传输功率配置;
行动空间满足每个基站的传输功率约束条件。
6.根据权利要求1所述的无线自回传小基站接入控制与资源分配联合优化方法,其特征在于,在每个离散时隙t上,基于随机梯度法更新待估参数的样本值函数不断逼近近似值函数的方法,具体步骤如下:
1)在时隙t开始时,输入目标函数:对应的样本值函数和决策后状态的近似值函数之间的均方差最小;
2)给定满足一定条件的确定步长,折扣因子,设置初始时间为0,均方差误差门限等参数;
3)使用即时差分TD(0)的方法取值函数样本,作为样本值函数的初始值;
4)使用数值微分的方法对待估参数取样本值;
5)计算当前状态的值函数样本;
6)观察样本值函数,智能体按照随机梯度法沿着梯度方向更新待估参数向量;
7)求得最优近似值函数;
8)判定中对应的样本值函数和决策后状态的近似值函数之间的均方差是否小于均方差误差门限,若不满足,则又继续执行样本值函数的步骤6),否则依此执行;
9)获得最接近真实值函数的近似值函数。
7.根据权利要求6所述的无线自回传小基站接入控制与资源分配联合优化方法,其特征在于,每个离散时隙t上,基于蒙特卡罗方法的外部用户需求随机变量采样方法,具体步骤如下:
1)在时隙t开始时,给定采样路径标记,并初始化为1;
2)设置总的采样次数,并设置总采样次数,选择初始状态,初始化折扣因子;
3)当采样次数在1到总采样次数的区间内时执行如下:选择一条采样路径;否则结束采样;
4)对于训练的每一个采样时刻,用公式表示采样的实现;
5)得到时隙t到达宏基站或小基站用户的随机包数量与时隙t基站分给该自回传小基站用户的无线资源量;
6)采样次数加1,继续重复以上步骤。