1.一种面向光学射频对消的实时自适应追踪决策方法,其特征在于,包括以下步骤:步骤1:初始化建立策略模型和状态‑控制表,预设判定阈值、衰减值、追踪衰减值、模型学习率、贪婪探索值;
步骤2:获取当前时间段光学射频对消环境的状态信息与奖励信息;
步骤3:判断当前时间段误码率是否达到判定阈值,若达到则返回步骤2,若未达到则进入下一步;
步骤4:策略模型随机一个数小于贪婪探索值,则输出一个随机控制信息;否则,根据当前时间段的状态信息,输出控制信息;状态‑控制表记录当前时间段的状态信息时输出当前控制信息的概率为1;
步骤5:输出的控制信息送入光学射频对消环境;策略模型中当前时间段的状态信息输出当前控制信息的概率乘以衰减值与前一时间段的状态信息及其输出控制信息的差值再加上获得的奖励值作为时分误差;时分误差、状态‑控制表的概率与模型学习率的积更新策略模型中的参数;
步骤6:模型学习率、贪婪探索值自身乘以衰减值,状态‑控制表的概率乘以追踪衰减值、衰减值,以达到衰减的目的;
步骤7:重复步骤2~步骤6。
2.根据权利要求1所述的一种面向光学射频对消的实时自适应追踪决策方法,其特征在于,所述步骤5中策略模型参数更新具体为:S1:获取下一时间段的光学射频对消环境的状态信息;
S2:根据多个时间段的光学射频对消环境的状态信息,记录并计算状态路径;
经历的每个时间段的光学射频对消环境的状态信息和控制信息记录在状态‑控制表中,每经历一个时间段对状态‑控制表进行折扣计算,保证当前时间段记录的状态‑控制信息为最新;
S3:使用状态路径的时分误差更新策略,对策略模型进行训练并对策略模型进行自适应参数更新;
在时分误差更新中,根据当前时间段状态‑控制信息、当前时间段的奖励值以及下一时间段状态‑控制信息,计算时分误差;使用该时分误差以及当前时间段的最新状态路径,对策略模型进行训练并对策略模型进行自适应参数更新。
3.根据权利要求1所述的一种面向光学射频对消的实时自适应追踪决策方法,其特征在于,所述光学射频对消环境的状态信息包括:光学射频对消环境的光路时延值、光路衰减值、信号误码率和接收信号数据中的一项或者任意多项。
4.根据权利要求1所述的一种面向光学射频对消的实时自适应追踪决策方法,其特征在于,所述光学射频对消环境的控制信息包括:光学射频对消环境的光路时延值的调整值、光路衰减值的调整值,用于执行控制光学射频对消环境的光路时延值和光路衰减值。
5.根据权利要求1所述的一种面向光学射频对消的实时自适应追踪决策方法,其特征在于,所述光学射频对消环境的奖励信息包括:光学射频对消环境的前一时间段的误码率对数值与当前时间段的误码率对数值的差,用于自适应更新策略模型的参数。
6.根据权利要求1所述的一种面向光学射频对消的实时自适应追踪决策方法,其特征在于,所述光学射频对消环境包括:对消信号反馈模块:用于获取光学射频对消环境当前时间段的状态信息;
光学真延时网络控制模块:用于接收策略模型的控制信息,生成参考信号并发给对消信号反馈模块将自干扰信号消除。