欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2021106355464
申请人: 浙江工业大学之江学院
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2023-12-11
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.面向深度强化学习的模型隐私保护方法,步骤如下:

1)对目标智能体进行预训练得到目标策略πt:深度确定性决策梯度算法(DDPG)训练小车Car,Car的目标是尽可能快地安全到达目的地;DDPG算法的核心是基于Actor‑Critic方法、DQN算法和确定性策略梯度(DPG)延伸而来,采用了确定性策略μ来选取动作at=μ(s|μ μ μ Q

θ),θ是产生确定性动作的策略网络μ(s|θ)的参数,以μ(s)来充当Actor,θ是价值Q网络QQ

(s,a,θ)的参数,以Q(s,a)函数来充当Critic;为提高训练稳定性,同时为策略网络和价值网络引入目标网络;其算法步骤如下:

1.1)DDPG模型用来生成连续行为,其网络结构由两大部分组成,即actor网络包含动作估计网络和动作实现网络,以及critic网络包含状态估计网络和状态实现网络;在预训练阶段,只需要训练动作估计网络和状态估计网络的参数,动作实现网络和状态实现网络的参数是分别由动作估计网络和状态估计网络每隔一定的时间复制过去的;状态估计网络的学习过程根据下面的损失函数来进行网络学习,即实际Q值和估计Q值的平方损失:其中,Q(si,ai,w)是根据状态估计网络根据状态si和在动作估计网络参数w下的动作ai得到的估计Q值,ai是动作估计网络传过来的动作,yi为实际Q值,以目标Q值yi的最大值作为实际Q值,即yi=max(yi),其中,目标Q值yi是根据现实奖励R、下一时刻环境状态s′以及动作实现网络输出的动作A′利用贝尔曼方程计算得到,具体公式为:Yi=R+γQ′(S′,A′,w′)                    (2)其中,R为当前动作对应的奖励值,γ为折扣因子,取值范围为0~1,Q′(S′,A′,w′)为可能的下一动作A′对应的期望Q值,由状态实现网络计算得到,w′为状态实现网络参数;

1.2)动作估计网络参数则是利用损失梯度来更新的,神经网络参数的更新公式如下:θ′←τθ+(1‑τ)θ′                    (4)w′←τw+(1‑τ)w′                    (5)其中,θ是动作估计网络的参数,θ′是动作实现网络的参数,w是状态估计网络的参数,w′是状态实现网络的参数,Q(si,ai,w)是根据状态估计网络根据状态si和在状态估计网络参数w下的动作ai得到的估计Q值,πθ(.)是参数θ下动作估计网络的策略,J(.)是动作估计网络的损失函数;

1.3)训练过程中,将目标智能体的状态转换过渡过程(s0,a0,r0,s′0)存储在经验回放缓冲区Buff,其中s0表示目标智能的部分可观测的状态数据,a0表示目标智能在s0状态时采取的动作,r0表示得到的即时奖励,s′0表示目标智能体可观测到的下一个状态数据,作为网络模型的训练数据集,并以随机采样的形式进行批处理学习;

2)根据深度强度学习预训练模型的策略πt生成T个时刻小车驾驶序列状态动作对(state,action){(s1,a1),...,(sT,aT)}作为专家数据用于模仿学习以生成模仿策略πIL;

3)基于模型学习生成模仿策略πIL:模仿学习的网络结构包括行动者网络Actor和判别器网络D,其训练过程步骤如下:

3.1)Actor网络中,通过输入当前时刻的状态数据,得到相应的模仿策略表示在s和ω的情况下选择动作a的概率;将采样得到的专家数据中的状态s输入到Actor网络中,根据模仿策略πIL来得到相应的动作a′,以生成模拟的状态动作对(s,a′);

3.2)在模仿策略的训练过程中,利用Actor网络代替生成器G,其输出的动作与状态成对输入到判别器中,与专家数据进行对比,判别器D:S×A→(0,1)的输出作为奖励值用来指导模仿学习的策略学习;因此,模仿学习中的判别器损失函数可以表示为:其中,πIL表示模仿学习得到的策略,πt表示采样的专家策略;第一项中的logD(s,a)表示判别器对真实数据的判断,第二项log(1‑D(s,a))则表示对生成数据的判断,通过这样一个最大最小博弈过程,循环交替优化G和D来训练所需要的Actor网络和判别式网络;

3.3)训练过程中,通过梯度求导来最小化损失函数从而反向更新判别器和Actor网络参数,其损失函数如下:

其中, 是模仿策略πIL的熵,由常数λ(λ≥0)控制,作为损失函数中的策略正则项;

4)对目标智能体的模型进行隐私保护:目标智能体在模仿策略πIL的基础上对自身的策略进行调整学习,即在保证目标智能体策略πt可以获得较高的期望奖励值的同时,还要保证根据模仿策略得到的期望奖励值越小越好,以达到策略保护的目的,具体方法步骤如下:

4.1)目标智能体通过在目标函数J(θ)上增加惩罚项进行修改,原本的目标函数是最大化目标智能体所获得的期望奖励值 在目标函数上添加基于模仿策略的惩罚项其中τ表示轨迹数据,通过最大化目标函数就可以达到同时保证目标策略πt有较好的性能而模仿策略πIL性能低的目的;

4.2)训练过程中,目标函数可以用参数为μ值函数来表示,得到损失函数为:其中,τ1和τ2分别是根据目标策略和模仿策略得到的轨迹数据,分别采样N1和N2个轨迹,然后对损失函数进行策略梯度求导,可得:其中,

πt表示目标智能体的策略,πIL表示模仿策略,

4.3)对主网络进行参数更新,可得到新的网络参数:其中,α和β表示参数更新的学习率;每隔一段时间将子线程中的网络参数更新为主网络的参数,以指导目标智能体的策略学习;

4.4)在目标智能体的训练过程中,模仿策略πIL每隔一段时间也会进行策略学习更新,保证其策略接近于修改后的目标智能体策略πt,从而指导目标智能体的决策输出,实现模型安全隐私保护;

5)对目标智能体进行对抗训练:

5.1)在目标智能体的防御保护训练过程中,每隔N个回合基于模仿学习生成对抗样本,利用基于梯度优化的方法来模拟黑盒对抗攻击来生成不同状态的对抗样本;

5.2)在训练过程中,将生成的对抗样本作为输入状态对目标模型进行对抗训练,以提高模型策略的鲁棒性,防御攻击者利用模仿学习来进行对抗攻击。

2.实施权利要求1所述的面向深度强化学习的模型隐私保护方法的系统,其特征在于:包括依次连接的目标智能体预训练模块、小车驾驶序列状态动作对生成模块、模仿策略πIL训练模块、目标智能体模型隐私保护模块、目标智能体对抗训练模块,其中目标智能体预训练模块对目标智能体进行预训练得到目标策略πt,具体包括:深度确定性决策梯度算法(DDPG)训练小车Car,Car的目标是尽可能快地安全到达目的地;DDPG算法的核心是基于Actor‑Critic方法、DQN算法和确定性策略梯度(DPG)延伸而来,采用了确定μ μ μ

性策略μ来选取动作at=μ(s|θ),θ是产生确定性动作的策略网络μ(s|θ)的参数,以μ(s)Q Q

来充当Actor,θ是价值Q网络Q(s,a,θ)的参数,以Q(s,a)函数来充当Critic;为提高训练稳定性,同时为策略网络和价值网络引入目标网络;其算法步骤如下:

1.1)DDPG模型用来生成连续行为,其网络结构由两大部分组成,即actor网络包含动作估计网络和动作实现网络,以及critic网络包含状态估计网络和状态实现网络;在预训练阶段,只需要训练动作估计网络和状态估计网络的参数,动作实现网络和状态实现网络的参数是分别由动作估计网络和状态估计网络每隔一定的时间复制过去的;状态估计网络的学习过程根据下面的损失函数来进行网络学习,即实际Q值和估计Q值的平方损失:其中,Q(si,ai,w)是根据状态估计网络根据状态si和在动作估计网络参数w下的动作ai得到的估计Q值,ai是动作估计网络传过来的动作,yi为实际Q值,以目标Q值yi的最大值作为实际Q值,即yi=max(yi),其中,目标Q值yi是根据现实奖励R、下一时刻环境状态s′以及动作实现网络输出的动作A′利用贝尔曼方程计算得到,具体公式为:Yi=R+γQ′(S′,A′,w′)                    (2)其中,R为当前动作对应的奖励值,γ为折扣因子,取值范围为0~1,Q′(S′,A′,w′)为可能的下一动作A′对应的期望Q值,由状态实现网络计算得到,w′为状态实现网络参数;

1.2)动作估计网络参数则是利用损失梯度来更新的,神经网络参数的更新公式如下:θ′←τθ+(1‑τ)θ′                    (4)w′←τw+(1‑τ)w′                    (5)其中,θ是动作估计网络的参数,θ′是动作实现网络的参数,w是状态估计网络的参数,w′是状态实现网络的参数,Q(si,ai,w)是根据状态估计网络根据状态si和在状态估计网络参数w下的动作ai得到的估计Q值,πθ(.)是参数θ下动作估计网络的策略,J(.)是动作估计网络的损失函数;

1.3)训练过程中,将目标智能体的状态转换过渡过程(s0,a0,r0,s′0)存储在经验回放缓冲区Buff,其中s0表示目标智能的部分可观测的状态数据,a0表示目标智能在s0状态时采取的动作,r0表示得到的即时奖励,s′0表示目标智能体可观测到的下一个状态数据,作为网络模型的训练数据集,并以随机采样的形式进行批处理学习;

小车驾驶序列状态动作对生成模块根据深度强度学习预训练模型的策略πt生成T个时刻小车驾驶序列状态动作对(state,action){(s1,a1),...,(sT,aT)}作为专家数据用于模仿学习以生成模仿策略πIL;

模仿策略πIL训练模块基于模型学习生成模仿策略πIL,具体包括:模仿学习的网络结构包括行动者网络Actor和判别器网络D,其训练过程步骤如下:

3.1)Actor网络中,通过输入当前时刻的状态数据,得到相应的模仿策略表示在s和ω的情况下选择动作a的概率;将采样得到的专家数据中的状态s输入到Actor网络中,根据模仿策略πIL来得到相应的动作a′,以生成模拟的状态动作对(s,a′);

3.2)在模仿策略的训练过程中,利用Actor网络代替生成器G,其输出的动作与状态成对输入到判别器中,与专家数据进行对比,判别器D:S×A→(0,1)的输出作为奖励值用来指导模仿学习的策略学习;因此,模仿学习中的判别器损失函数可以表示为:其中,πIL表示模仿学习得到的策略,πt表示采样的专家策略;第一项中的logD(s,a)表示判别器对真实数据的判断,第二项log(1‑D(s,a))则表示对生成数据的判断,通过这样一个最大最小博弈过程,循环交替优化G和D来训练所需要的Actor网络和判别式网络;

3.3)训练过程中,通过梯度求导来最小化损失函数从而反向更新判别器和Actor网络参数,其损失函数如下:

其中, 是模仿策略πIL的熵,由常数λ(λ≥0)控制,作为损失函数中的策略正则项;

目标智能体模型隐私保护模块包括:目标智能体在模仿策略πIL的基础上对自身的策略进行调整学习,即在保证目标智能体策略πt可以获得较高的期望奖励值的同时,还要保证根据模仿策略得到的期望奖励值越小越好,以达到策略保护的目的,具体方法步骤如下:

4.1)目标智能体通过在目标函数J(θ)上增加惩罚项进行修改,原本的目标函数是最大化目标智能体所获得的期望奖励值 在目标函数上添加基于模仿策略的惩罚项其中τ表示轨迹数据,通过最大化目标函数就可以达到同时保证目标策略πt有较好的性能而模仿策略πIL性能低的目的;

4.2)训练过程中,目标函数可以用参数为μ值函数来表示,得到损失函数为:其中,τ1和τ2分别是根据目标策略和模仿策略得到的轨迹数据,分别采样N1和N2个轨迹,然后对损失函数进行策略梯度求导,可得:其中,

πt表示目标智能体的策略,πIL表示模仿策略,

4.3)对主网络进行参数更新,可得到新的网络参数:其中,α和β表示参数更新的学习率;每隔一段时间将子线程中的网络参数更新为主网络的参数,以指导目标智能体的策略学习;

4.4)在目标智能体的训练过程中,模仿策略πIL每隔一段时间也会进行策略学习更新,保证其策略接近于修改后的目标智能体策略πt,从而指导目标智能体的决策输出,实现模型安全隐私保护;

目标智能体对抗训练模块包括:

5.1)在目标智能体的防御保护训练过程中,每隔N个回合基于模仿学习生成对抗样本,利用基于梯度优化的方法来模拟黑盒对抗攻击来生成不同状态的对抗样本;

5.2)在训练过程中,将生成的对抗样本作为输入状态对目标模型进行对抗训练,以提高模型策略的鲁棒性,防御攻击者利用模仿学习来进行对抗攻击。