欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2021107285416
申请人: 暨南大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2025-02-26
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种策略信息生成方法,应用于工业生产线,其特征在于,包括:

从与工业生产线对应的预设仿真模型中,获取对应的生产运行状态数据,其中,所述预设仿真模型用于表征所述工业生产线的运行;

对所述生产运行状态数据进行处理,得到所述工业生产线的设备所对应的设备状态信息及第一动作策略信息,其中,所述第一动作策略信息用于指示所述设备按预设的运行参数进行工作;

在接收到策略信息生成请求的情况下,获取所述工业生产线当前设备状态信息,并通过预设的强化训练模型对所述当前设备状态信息进行处理,生成对应的策略信息,其中,所述强化训练模型采用基于PPO算法的强化学习模型,并以预设的优化指标为奖励函数、所述设备状态信息为输入、所述第一动作策略信息为输出进行训练生成的;其中,所述强化训练模型的构建包括:根据工业生产线的设计要求建立仿真模型;

从仿真模型中提取出对应的生产运行状态数据,并对生产运行状态数据进行处理,得到工业生产线的设备所对应的设备状态信息及第一动作策略信息;还定义如下参数:单位时间内所生产的产品数reward;在当前时刻,生产线的总产出value function;在总的工作时间里,生产线能到达的最大产出Q‑function;在当前时刻前,生产线所采取的一系列动作action中,每个动作对生产线的产出造成的影响history;从history中提取,并用以决定生产线下一步操作的相关信息state,其中:value function: for all s∈S;

Q‑function:

History:Ht=A1,O1,R1,…,At,Ot,Rt;

state:St=f(Ht),At=h(St);

构建强化训练模型;对构建的强化训练模型进行训练:以预设的优化指标为奖励函数、设备状态信息为输入、第一动作策略信息为输出,经过多次迭代更新,得到训练好的强化训练模型。

2.根据权利要求1所述的策略信息生成方法,其特征在于,所述基于PPO算法的强化学习模型采用Actor‑Critic架构,包括:价值评估网络和动作策略网络。

3.根据权利要求2所述的策略信息生成方法,其特征在于,所述基于PPO算法的强化学习模型,采用重要性采样方式,并通过Clip函数方法限制不同状态下策略函数的参数的分布差。

4.根据权利要求1所述的策略信息生成方法,其特征在于,在接收到策略信息生成请求的情况下,获取所述工业生产线当前设备状态信息,并通过预设的强化训练模型对所述当前设备状态信息进行处理,生成对应的策略信息,包括:获取所述工业生产线当前设备状态信息;

将所述当前设备状态信息输入所述预设的强化训练模型,得到一组第二动作策略信息;

将所述当前设备状态信息重复多次输入迭代,对应得到多组不同的第二动作策略信息,并结合生产线实际需求从所述多组不同的第二动作策略信息中选出一组最优的作为最终的策略信息。

5.根据权利要求4所述的策略信息生成方法,其特征在于,将所述当前设备状态信息输入所述预设的强化训练模型,得到一组第二动作策略信息,包括:将所述当前设备状态信息输入所述预设的强化训练模型,通过价值评估网络计算得到当前状态的最优价值;

利用所述价值评估网络提供的所述当前状态的最优价值迭代更新动作策略网络中策略函数的参数,进而以实现奖励函数为目标选择动作策略,并得到一次即时奖励,同时进入新的状态;使用所述新的状态更新所述价值评估网络中价值函数的参数,并使用更新后的价值函数计算新的状态的最优价值;

重复上述更新过程,直至系统处于终止状态,记录所述动作策略网络在各个状态的所述动作策略,即得到一组第二动作策略信息。

6.根据权利要求1所述的策略信息生成方法,其特征在于,所述预设的优化指标包括以下其中一种:生产线产能、单位生产时间、设备利用率、单位平均能耗。

7.根据权利要求1所述的策略信息生成方法,其特征在于,所述生产运行状态数据,包括不同时刻,生产线中各个关键要素所处状态。

8.一种策略信息生成装置,其特征在于,包括:

获取模块,用于从与工业生产线对应的预设仿真模型中,获取对应的生产运行状态数据,其中,所述预设仿真模型用于表征所述工业生产线的运行;

数据处理模块,用于对所述生产运行状态数据进行处理,得到所述工业生产线的设备所对应的设备状态信息及第一动作策略信息,其中,所述第一动作策略信息用于指示所述设备按预设的运行参数进行工作;

策略生成模块,用于在接收到策略信息生成请求的情况下,获取所述工业生产线当前设备状态信息,并通过预设的强化训练模型对所述当前设备状态信息进行处理,生成对应的策略信息,其中,所述强化训练模型采用基于PPO算法的强化学习模型,并以预设的优化指标为奖励函数、所述设备状态信息为输入、所述第一动作策略信息为输出进行训练生成的;其中,所述强化训练模型的构建包括:根据工业生产线的设计要求建立仿真模型;

从仿真模型中提取出对应的生产运行状态数据,并对生产运行状态数据进行处理,得到工业生产线的设备所对应的设备状态信息及第一动作策略信息;还定义如下参数:单位时间内所生产的产品数reward;在当前时刻,生产线的总产出value function;在总的工作时间里,生产线能到达的最大产出Q‑function;在当前时刻前,生产线所采取的一系列动作action中,每个动作对生产线的产出造成的影响history;从history中提取,并用以决定生产线下一步操作的相关信息state,其中:value function: for all s∈S;

Q‑function:

History:Ht=A1,O1,R1,…,At,Ot,Rt;

state:St=f(Ht),At=h(St);

构建强化训练模型;对构建的强化训练模型进行训练:以预设的优化指标为奖励函数、设备状态信息为输入、第一动作策略信息为输出,经过多次迭代更新,得到训练好的强化训练模型。

9.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行权利要求1至7中任一项所述的策略信息生成方法。

10.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的策略信息生成方法。