1.免授权频段上的一种智能共存方法,其特征在于:该方法包括以下步骤:S1:设计LAA小基站动作集合、奖励函数以及状态集合;
S2:初始化环境,LAA小基站获取初始状态值st;
S3:根据ε‑greedy策略,LAA小基站以概率(1‑ε)选择最大Q值对应的动作at,以概率ε随机选择动作at;
S4:执行动作at后,LAA小基站获取环境奖励值rt,并将一次交互得到的经验样本
S5:LAA小基站以批量化的方式将经验样本喂给估计值网络,以更新神经网络权重θ,调整对Q值的估算方式;
S6:重复步骤S3‑S5,直到达到目标状态。
2.根据权利要求1述的免授权频段上的一种智能共存方法,其特征在于:在步骤S1中,我们将WiFi网络视为一个随机的环境,把LAA小基站的接入问题建模为马尔可夫决策过程,引入DRL来解决该问题。视LAA小基站为智能体,让其实时监控信道中WiFi流量的变化来调整自身的接入策略,以实现高效和谐的共存。
针对此共存系统,我们的目的旨在充分保护WiFi网络性能的情况下,最大化LAA小基站的吞吐量,以提高频谱利用率。我们考虑用期望的WiFi数据包交付率n′/n来表示WiFi网络性能是否受到保护,其中n′表示每个TF中成功传输的WiFi数据包数量,n表示每个TF中待传输的WiFi数据包数量。因此,将此共存问题描述为数学公式为:max TSBS/TF
TSBS/TF表示为归一化的LAA小基站的吞吐量, 表示期望的WiFi数据包的到达率不低于保证率 因此,为了正确引导LAA小基站按照期望调整接入策略,奖励函数设置为:
其次,LAA小基站的动作实际上为接入条件、接入长度和休眠时长的组合,分别用Td、TL、Tq表示,则动作at表示为[Td,TL,Tq]。TL和Tq都存在各自的最大最小值,单位为ms,Td表示dummypacket的阈值,单位为slot。
状态s是决策的基础,应该包含足够多的信息来指示WiFi网络的运行情况。LAA小基站通过能量探测等方式监控信道活动收集WiFi活动,得到在每个LAA帧中成功发送的WiFi数据包数量、冲突的数量和空闲时隙的数量,分别用ns,nc和TI来表示,除此之外,还应包括在状态st时采取的动作at和得到的奖励rt,因为他们包含隐式评估动作的规则。即状态st+1表示为:
st+1=
3.根据权利要求2所述的免授权频段上的一种智能共存方法,其特征在于:在步骤S2中,初始化环境状态,LAA小基站获取当前状态值st,并将其传入估计值网络中,对每个动作的Q值进行预测。
4.根据权利要求3所述的免授权频段上的一种智能共存方法,其特征在于:在步骤S3中,LAA小基站根据ε‑greedy策略,以概率(1‑ε)选择最大的Q值对应的动作at=[Td,TL,Tq],以概率ε从动作集合随机选择一个动作at=[Td,TL,Tq]。
5.根据权利要求4所述的免授权频段上的一种智能共存方法,其特征在于:在步骤S4中,LAA小基站将动作at作用于环境后,会获得一个在状态st下执行动作at的奖励值环境状态也会从st更新为st+1。LAA小基站将每次交互的经验样本存放进记忆池D={e1,e2,...et}中。
6.根据权利要求5所述的免授权频段上的一种智能共存方法,其特征在于:在步骤S5中,在得到一定量的经验样本之后,LAA小基站以批量化的方式将经验样本喂给估计值网络,应用梯度下降算法去最小化损失函数L(θ),从而将估计值网络的权重θt更新为θt+1。
其中,损失函数定义为:
。
7.根据权利要求6所述的免授权频段上的一种智能共存方法,其特征在于:在步骤S6中,重复步骤S3‑S5,LAA小基站不断与环境交互,利用经验样本反复训练神经网络并更新其* *
权重θ,直到得到最佳权重θ,最终得到最佳接入策略π(s)。