1.免授权频段上的一种智能共存方法,其特征在于:该方法包括以下步骤:
S1:设计LAA小基站动作集合、奖励函数以及状态集合;首先,在现有共存机制的基础上,为LTE系统设计一种智能的MAC协议,并基于该协议提出一种频谱共享框架;使用期望的WiFi数据包交付率n′/n来表示WiFi网络性能是否受到保护,其中n′表示每个TF中成功传输的WiFi数据包数量,n表示每个TF中待传输的WiFi数据包数量;因此,将此共存问题描述为:max TSBS/TF
其中TSBS/TF表示归一化的LAA小基站的吞吐量, 表示期望的WiFi数据包的到达率不低于保证率 将共存系统视为一个随机环境,把LAA小基站的频谱接入问题建模为马尔可夫决策过程,并从待解决的问题中映射出MDP中的关键元素:动作集合A、奖励函数 以及状态s;
其中,将奖励函数定义为:
根据所提出的MAC协议,LAA小基站的动作实际上为接入条件、接入长度和休眠时长的组合,并分别用Td、TL、Tq表示,则动作at表示为[Td,TL,Tq];TL和Tq都存在各自的最大和最小值,其基本单位为毫秒,Td表示LAA小基站的侦听周期,单位为时隙;
状态s是决策的基础,其包含信息以指示WiFi网络的运行情况;LAA小基站通过能量探测技术监控信道活动收集WiFi活动,得到在每个LAA帧中成功发送的WiFi数据包数量、冲突的数量和空闲时隙的数量,并分别用ns,nc和TI来表示;除此之外,还包括在状态st时采取的动作at和得到的奖励rt;则状态st+1表示为:st+1=
S2:初始化环境状态,LAA小基站通过监测环境状态,获取当前的环境信息st,并将其作为输入,传递给当前值网络,当前值网络根据st对每个动作的Q值进行估计;
S3:根据ε‑greedy策略,LAA小基站以概率(1‑ε)选择最大Q值对应的动作at,以概率ε随机选择动作at;
S4:LAA小基站执行动作at与环境进行交互,得到一个关于动作at的奖励值R(at,st),环境的状态从st更新为st+1;LAA小基站与环境的每一次交互都会得到一个经验样本et=
S5:在得到经验样本后,LAA小基站以批量化的方式将经验样本喂给估计值网络,并应用梯度下降算法最小化损失函数L(θ),将估计值网络的权重θt更新为θt+1;
其中,损失函数定义为:
S6:重复步骤S3‑S5,LAA小基站不断与环境交互,利用经验样本反复训练神经网络并更* *新其权重θ,直到得到最佳权重θ,最终得到最佳接入策略π(s),直到达到目标状态。