1.一种基于置信区间上界算法与DRL算法的动态频谱接入方法,其特征在于,该方法具体包括以下步骤:
S1:构建分布式动态频谱接入系统模型;
S2:构建SUE的累积期望奖励函数;
S3:根据第l个SUE在t时隙之前的M个时隙的历史经验 以及接入信道的状态动作,得到最优接入策略,以获得最大的累积期望奖励;
S4:采用深度强化学习中的DQN算法和置信区间上界算法结合的方法对接入策略进行求解,通过不断迭代获得最优接入策略。
2.根据权利要求1所述的动态频谱接入方法,其特征在于,步骤S1中,构建的分布式动态频谱接入系统模型,具体包括:N个PU组成的主用户网络和L个SUE组成的次用户网络;假设有N个正交信道,每个PU在唯一的无线信道上传输;PU在信道上的工作状态表示为活跃和N
空闲,分别标记为“1”和“0”;则所有信道的状态由2个状态的离散马尔可夫模型来描述,其状态空间表示为:S={s=(s1,s2,...,sn,...,sN)∣sn=0或1,n=1,2,...,N},其中,sn=0或
1分别表示每个信道的两种状态:占用或空闲。
3.根据权利要求2所述的动态频谱接入方法,其特征在于,步骤S1中,单个信道上的状态转移概率表示为:
其中,pij表示状态i转移为状态j的概率。
4.根据权利要求2所述的动态频谱接入方法,其特征在于,步骤S1中,假设每个SUE都有传输数据的需要,每个SUE接入一个信道,且不同的SUE接入动作空间都是相同的,此时用第l个SUE的动作空间来概括表示;第l个SUE在时隙t内的接入动作表示为:l
a(t)∈{1,2,...,n,...,N}l
其中,a (t)表示在时隙t内,第l个SUE将要接入并且传输数据的信道;假设SUE在t时隙接入第n个信道之后,SUE发送端接收到接收端通过控制信道发送的SUE所接入的第n个信道的反馈为 SUE接入第n个信道后,会发生三种情况:(1)SUE成功传输;(2)SUE之间相互碰撞干扰;(3)SUE对PU产生了干扰;对应于这三种情况,分别设置反馈为即
5.根据权利要求4所述的动态频谱接入方法,其特征在于,步骤S1中,将奖励值设置为反馈信号 的值,则第l个SUE获得的累积折扣奖励表示为:l
其中,0≤γ≤1为折扣因子,表示未来的奖励对当前动作的影响;r (t)表示第l个SUE在信道上传输成功的奖励值。
6.根据权利要求5所述的动态频谱接入方法,其特征在于,步骤S2中,构建的SUE的累积期望奖励函数,表达式为:
其中, 表示第l个SUE在t时隙之前的M个时隙的历史经验,L表示SUE的数量。
7.根据权利要求6所述的动态频谱接入方法,其特征在于,步骤S2中,第l个SUE在t时隙之前的M个时隙的历史经验 选取动作接入信道,以获得最大的累积期望奖励,由此SUE最优接入策略公式为:
8.根据权利要求7所述的动态频谱接入方法,其特征在于,步骤S3中,采用深度强化学习中的DQN算法和置信区间上界算法结合的方法对接入策略进行求解,具体包括:SUE采取动作时,在t时隙选择动作为 其中, 表示在t时隙之前动作 被选择的次数,σ表示不确定度量,控制探索的程度; 表示第l个SUE在t时隙给 定历史经 验 作为状态下 采取动作 的 Q值 ,其 公式表示 为