欢迎来到知嘟嘟! 联系电话:13336804447 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13336804447
知嘟嘟经纪人
收藏
专利号: 2021105817165
申请人: 重庆邮电大学
专利类型:发明专利
专利状态:已下证
专利领域: 电通信技术
更新日期:2024-11-18
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种授权和免授权D2D通信资源联合智能分配方法,包括以下步骤:

S1:建立D2D用户通信模型:计算得到接入WiFi频段的D2D数量,在复用许可频段模式中,两个D2D可以复用同一个现有蜂窝用户的上行链路直接进行通信;复用蜂窝用户m的信道的D2D对k的频谱效率为:C

在式中,pk,m是第k个D2D对的发射功率, 是蜂窝用户m的发射功率,B是授权的子信道带宽, 是噪声功率密度,hk,m是蜂窝用户m与D2D对k的接收机之间的干扰功率增益;xi=1时,则D2D对i复用上行蜂窝用户的信道,xi=0,则第i个D2D对将接入WiFi免授权频段;θi,m=1,表示D2D对i复用上行蜂窝用户m的信道;θi,m=0,表示D2D对i未复用上行蜂窝用户m的信道;蜂窝用户m被D2D对k复用的频谱效率为:其中, 是蜂窝用户m和基站的信道功率增益,hk,B为D2D发射端k和基站间的信道增益;

D2D通信的存在会对蜂窝和WiFi用户有较大的影响,所以提出一种在满足WiFi用户最低吞吐量条件下,确定出能够接入WiFi授权频段的最大D2D的数量后,对总的D2D用户进行模式选择和资源的分配,以最大程度地减少D2D通信引起的蜂窝和WiFi用户的下降;

S2:建立需要优化的目标函数:为了得到最大蜂窝用户和授权频段D2D用户系统吞吐量,从而有:其中m取值为m∈{1,2,…,M},c1中xk表示D2D用户接入授权与免授权的选择,θk,m表示D2D复用子信道的选择,c2表示D2D用户的功率限制,pmax表示D2D发射端的最大发射功率,c3表示满足最低WiFi吞吐量要求,SW和 分别表示为WiFi吞吐量和WiFi吞吐量的最低阈值,c4和c5分别表示确保D2D用户和蜂窝用户满足最低信噪比要求,SINRD2D和SINRCU分别表示D2D和CU的信噪比, 和 分别表示为D2D和CU需要满足的最低信噪比要求;

S3:建立多智能体深度强化学习的D2D通信模型:为了解决D2D通信资源分配中的NP‑hard难题,采用一种多智能体强化学习方法,COMA(Counterfactual Multi‑Agent)算法,首先将D2D发射端作为智能体,并将多智能体环境建模为马尔可夫博弈来优化策略,同时考虑其他智能体的行为策略,方法是将单个智能体对奖励的影响边缘化,将智能体在某个时间点t,采取的行为与它在t可能采取的所有其他行为进行比较,通过一个集中的Critic来实现,所有智能体的价值函数相同,每个智能体根据自己的反事实动作接受一个定制错误项;

COMA利用当前的策略和利用当前的行为值函数对当前智能体的策略求解边缘分布计算基线,COMA避免设计额外的默认动作和额外的模拟计算;训练过程在BS完成,将D2D用户在执行过程中收集到的历史信息上传到BS,在BS完成集中式训练,在基站上Critic获得智能体j的策略用来评估采取动作的好坏;分布式执行过程中,D2D用户从基站获取的A (s,u)更新自己的Actor网络中,Actor基于智能体从环境中观测到的状态选择行为,智能体不断与环境交互,智能体进行足够多的训练次数,最终将收敛于一个奖励值最大的动作上,从而得到最优的策略;

S4:设置多智能体的动作集合,状态集合和奖励函数:智能体D2D对与环境交互并根据t策略采取相应的行为;在每个时刻t,智能体D2D对从状态空间S中观测一个状态s ,并根据策略π从动作空间A中采取相应的选择模式、选择RB、选择功率级别;在执行该行为之后,环t+1境进入新的状态s ,agent获得奖励;因此,状态空间、动作空间以及奖励函数设置如下:状态空间S:在任何时间t,系统状态均由所有D2D在该时间t的联合SINR值表示为:其中 表示为第N个D2D发射端t时刻的局部观测状态;

动作空间A: 分别为授权和免授权的频段的选择,功率级别选择,和RB选

择,其中,模式选择:2,功率级别:10,RB选择:20,每个智能体的动作空间数位:α×β×η=

400;

奖励函数R:奖励函数设计三个部分:D2D的选择模式、D2D和蜂窝用户的速率以及二者的信噪比,智能体如果选择的模式是接入免授权频段,那么将其获得的奖励设置为一个正值,但是当D2D数量超过满足的最大接入数量后,将获得较大的负值,如果智能体采取的行为使得蜂窝用户和D2D用户的信噪比大于设定的阈值,则以其对应的速率和选择的相同复用频谱的蜂窝用户奖励之和作为奖励,反之,如果智能体采取的行为,导致D2D或者蜂窝用户的信噪比小于设定的阈值,则奖励函数为负值;对接入到免授权频段用户数量的限定,设计函数:对D2D和CU的SINR进行限制,可以得到第j个D2D用户的奖励函数为:

式中

其中,ri表示第j个D2D获得的即时奖励;Nmax表示允许接入到免授权频段的最大值;

分别表示为第i个智能体在满足接入到免授权频段的数量下获得的奖

励、第i个智能体不满足接入到免授权频段的数量下获得的奖励、第i个智能体选择接入到免授权频段下且满足自身和复用的CU的最低信噪比阈值获得的即时奖励、第i个智能体在接入到免许可频段下且不满足自身或者复用的CU的信噪比获得的即时奖励; 和 分别表示第i个D2D用户对和被第i个D2D对复用的CU的频谱效率;

S5:智能体根据自身的Actor网络采取动作,获得状态和奖励以及下一个状态:每个智能体根据自身的策略网络采取概率最大的动作,作为在当前状态下采取的动作,将所有智能体采取的动作状态联合起来得到,从环境状态st下的联合动作at,D2D用户获得奖励和下一个状态st+1;

S6:计算Critic网络的TD error,并更新Critic网络参数,Critic网络计算每个智能体的反事实基线,通过反事实基线更新Actor网络参数,更新状态:从Critic网络中计算TD error:其中 表示状态st+1下最大的动作价值, 表示状态st

下根据策略函数 选择的动作的动作价值,Critic网络参数更新采用梯度上升法:

其中αλ表示Critic网络的学习率,ut表示联合动作, 表示状态st下联合动作ut的状态价值函数的梯度,使用COMA算法的反事实基线解决置信分配问题,方法是将单个智能体对奖励的影响边缘化,并将智能体在某个时间t采取的行为与t时可能采取的所有其他行为进行比较,这通过集中的Critic来实现,因此所有智能体的值函数时相同的,但是每个智能体都会根据自己的反事实行为得到一个特定的误差项,第j个智能体反事实基线定义为:‑j

其中, 表示智能体j当前没有采取的其他动作,u 表示处理智能体j采取的动作的联‑j j合动作, 表示在状态st动作 的概率,Qλ(st,(u ,a′))表示当除了智能体j以外的其他智能体动作不变的前提下,在状态st下动作 的动作价值,第j个智能体通过反事实j基线A(s,u),更新自身的Actor网络参数,依据公式:

其中, 表示t时刻第j个智能体的策略参数,αθ表示智能体的学习率, 表示j

第j个智能体在状态st时的策略梯度,智能体根据Critic网络获得的优势函数A (s,u),进行Actor网络的参数更新;

S7:重复步骤S5‑S6,直到达到目标状态。