知嘟嘟-专利交易平台_专利购买_专利出售-买专利,上嘟嘟

欢迎来到知嘟嘟！联系电话：13336804447 卖家免费入驻，海量在线求购！卖家免费入驻，海量在线求购！

嘟嘟会员

帮助中心网站地图

查出售查高校查求购查年费

我要发布

首页转移热力图Hot 专利交易委托购买高校专区科技服务专利求购年费查询行业资讯

联系电话：13336804447

知嘟嘟经纪人

基于置信区间上界算法与DRL算法的动态频谱接入方法

面议

专利号： 2021105061849

申请人：重庆邮电大学

专利类型：发明专利

专利状态：已下证

专利领域：电通信技术

更新日期：2026-04-06

缴费截止日期：暂无

价格&联系人

年费信息

委托购买

专利简介

专利详情

委托购买说明

需准备材料

常见问题

摘要:

权利要求书:

1.一种基于置信区间上界算法与DRL算法的动态频谱接入方法，其特征在于，该方法具体包括以下步骤：

S1：构建分布式动态频谱接入系统模型；

S2：构建SUE的累积期望奖励函数；

S3：根据第l个SUE在t时隙之前的M个时隙的历史经验以及接入信道的状态动作，得到最优接入策略，以获得最大的累积期望奖励；

S4：采用深度强化学习中的DQN算法和置信区间上界算法结合的方法对接入策略进行求解，通过不断迭代获得最优接入策略。

2.根据权利要求1所述的动态频谱接入方法，其特征在于，步骤S1中，构建的分布式动态频谱接入系统模型，具体包括：N个PU组成的主用户网络和L个SUE组成的次用户网络；假设有N个正交信道，每个PU在唯一的无线信道上传输；PU在信道上的工作状态表示为活跃和N

空闲，分别标记为“1”和“0”；则所有信道的状态由2个状态的离散马尔可夫模型来描述，其状态空间表示为：S＝{s＝(s1,s2,...,sn,...,sN)∣sn＝0或1,n＝1,2,...,N}，其中，sn＝0或

1分别表示每个信道的两种状态：占用或空闲。

3.根据权利要求2所述的动态频谱接入方法，其特征在于，步骤S1中，单个信道上的状态转移概率表示为：

其中，pij表示状态i转移为状态j的概率。

4.根据权利要求2所述的动态频谱接入方法，其特征在于，步骤S1中，假设每个SUE都有传输数据的需要，每个SUE接入一个信道，且不同的SUE接入动作空间都是相同的，此时用第l个SUE的动作空间来概括表示；第l个SUE在时隙t内的接入动作表示为：l

a(t)∈{1,2,...,n,...,N}l

其中，a (t)表示在时隙t内，第l个SUE将要接入并且传输数据的信道；假设SUE在t时隙接入第n个信道之后，SUE发送端接收到接收端通过控制信道发送的SUE所接入的第n个信道的反馈为 SUE接入第n个信道后，会发生三种情况：(1)SUE成功传输；(2)SUE之间相互碰撞干扰；(3)SUE对PU产生了干扰；对应于这三种情况，分别设置反馈为即

5.根据权利要求4所述的动态频谱接入方法，其特征在于，步骤S1中，将奖励值设置为反馈信号的值，则第l个SUE获得的累积折扣奖励表示为：l

其中，0≤γ≤1为折扣因子，表示未来的奖励对当前动作的影响；r (t)表示第l个SUE在信道上传输成功的奖励值。

6.根据权利要求5所述的动态频谱接入方法，其特征在于，步骤S2中，构建的SUE的累积期望奖励函数，表达式为：

其中，表示第l个SUE在t时隙之前的M个时隙的历史经验，L表示SUE的数量。

7.根据权利要求6所述的动态频谱接入方法，其特征在于，步骤S2中，第l个SUE在t时隙之前的M个时隙的历史经验选取动作接入信道，以获得最大的累积期望奖励，由此SUE最优接入策略公式为：

8.根据权利要求7所述的动态频谱接入方法，其特征在于，步骤S3中，采用深度强化学习中的DQN算法和置信区间上界算法结合的方法对接入策略进行求解，具体包括：SUE采取动作时，在t时隙选择动作为其中，表示在t时隙之前动作被选择的次数，σ表示不确定度量，控制探索的程度；表示第l个SUE在t时隙给定历史经验作为状态下采取动作的 Q值，其公式表示为