欢迎来到知嘟嘟! 联系电话:13336804447 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13336804447
知嘟嘟经纪人
收藏
专利号: 2025109607126
申请人: 湖南师范大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2026-02-06
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.融合时序空间特征提取与强化学习的电机缺陷识别方法,其特征在于,包括:

搭建Transformer-GAT模型架构,学习时间序列关联性与空间拓扑结构特征,形成时空复合表征向量,增强电机故障检测的多维特征表征能力;

采用策略网络与价值网络并行架构,同时设计基于双网络架构的加权融合机制与策略函数,确定双网络架构输出的缺陷类型,有效防止单一网络偏倚及决策固化问题;

通过动态势能函数Φ(S)解析系统状态,融合差值计算构建奖励函数生成奖励r,平衡模型的即时诊断准确性与长期状态稳定性;

采用离线预训练与在线应用的双阶段模式,实现模型参数持续更新优化。

2.如权利要求1所述的融合时序空间特征提取与强化学习的电机缺陷识别方法,其特征在于,搭建Transformer-GAT模型架构,学习时间序列关联性与空间拓扑结构特征,形成时空复合表征向量,增强电机故障检测的多维特征表征能力,包括:①首先采用Transformer模块处理电流、噪声、温度等多源时序信号,通过多头注意力机制捕捉不同时间步的动态关联,生成电流、噪声、温度等多源时序信号的多维时序特征向量;②基于电机物理连接关系构建电机多参数空间关联拓扑图,将各传感器节点的Transformer输出的电流、温度、噪声的多维时序特征向量h1、h2、h3作为图节点特征,根据电气连接关系定义邻接矩阵,通过图注意力机制a12、a13、a14聚合邻居信息,生成中心节点特征T1;③将T1与原始时序特征h1-h3通过拼接操作形成包含电流波动、温升特性和噪声频谱的多维时空复合向量T1’。

3.如权利要求1所述的融合时序空间特征提取与强化学习的电机缺陷识别方法,其特征在于,采用策略网络与价值网络并行架构,同时设计基于双网络架构的加权融合机制与策略函数,确定双网络架构输出的缺陷类型,有效防止单一网络偏倚及决策固化问题,包括:①将多维时空复合向量T1’输入并联结构的策略网络Actor和值网络Critic中,其中策略网络生成故障概率分布 ,价值网络生成各缺陷的价值评分,形成价值评分矩阵,②同时通过策略熵函数计算策略分布的熵值,如式(1)所示,其中n为故障类别总数,为电机各缺陷;③而后通过置信度函数将熵值转换为[0,1]区间的置信度,如式(2)所示;④并将价值评分归一化后通过设计的伪策略函数转换为伪概率分布,如式(3)、式(4)所示,其中τ如式(5)所示;⑤随后设计权重生成函数生成权重α,如式(6)所示,其中为Critic伪策略的方差,σ为Sigmoid函数,输出权重α∈(0,1);⑥最后构建策略融合函数生成最终的策略分布,如式(7)所示并选取综合概率最高的电机缺陷A;

(1)

(2)

(3)

(4)

(5)

(6)

(7)。

4.如权利要求1融合时序空间特征提取与强化学习的电机缺陷识别方法,其特征在于,通过动态势能函数Φ(S)解析系统状态,融合差值计算构建奖励函数生成奖励r,平衡模型的即时诊断准确性与长期状态稳定性,包括:①定义噪声特征得分:当噪声趋近最大阈值时得分趋近于0,噪声越低得分越高,如式(8)所示,其中,N为当前噪声测量值,为系统允许的最大噪声阈值;②定义电流特征得分:电流偏离正常值幅度越大得分越低,理想状态下得分为1,如式(9)所示,其中,I为实时电流,为额定电流,为最大允许电流;③定义温度特征得分:温度偏离正常值范围时得分下降,过热或过冷均触发预警,如式(10)所示,其中,T为当前温度,为正常运行温度,为最高允许温度;④定义势能函数:通过加权融合多模态特征得分,动态表征系统整体健康度,如式(11)所示,其中、、是权重;⑤定义奖励函数:基于势能函数差值构建奖励信号,促使模型在即时诊断准确性与长期运行稳定性间平衡,如式(12)所示,其中,为当前时刻势能值,为上一时刻势能值,γ为折扣因子,取值范围 0<<1,用于调节短期收益与长期目标的权重;

(8)

(9)

(10)

(11)

(12)。

5.如权利要求1所述的融合时序空间特征提取与强化学习的电机缺陷识别方法,其特征在于,采用离线预训练与在线应用的双阶段模式,实现模型参数持续更新优化,有效提高设备运行效能与状态可靠性,包括:①以奖励函数为目标,离线训练优化双网络架构的模型参数;②在线运行时通过策略融合函数生成最终的策略分布,并选取综合概率最高的故障类别后,将四元组存入回归经验池;③定时将模型进行离线微调,采用SAC算法更新网络参数具体包括:更新Q函数网络:通过最小化时序差分误差,如式(13)所示,其中为折扣因子,取值范围 0<<1,r为即时奖励,即输出电机缺陷a后通过公式得到的的实时奖励值, 为Q函数网络的损失函数,为动作值函数,表示在状态 s 下输出电机缺陷 a 的预期累积奖励,为目标值函数,表示在下一状态 s' 下的期望长期健康趋势,从而使Q函数能够准确预测在当前状态S下输出电机缺陷A;更新值函数网络,通过匹配状态S的期望累积奖励,如式(14)所示,其中α为熵系数,为值函数网络的损失函数,为值函数,表示状态 s 的期望累积奖励,从而使值函数网络学习设备在特定状态下的长期健康趋势;更新策略网络:通过最大化期望奖励并引入熵正则化,如式(15)所示,其中为策略网络的损失函数,α为熵系数,为在状态 S 下输出综合概率最高的电机缺陷A的概率,从而提升策略网络的精准性和稳健性,能快速响应特征异常并反馈出综合概率最高的电机缺陷A,避免对瞬时噪声和温度波动过度敏感;更新目标网络:通过软更新同步参数,如式(16)所示,其中为目标网络的参数,为软更新系数,取值范围 0<<1,从而使目标网络为Q网络和值网络提供延迟但稳定的参考目标;④通过循环执行步骤②至③,实现“特征感知-决策生成-奖励反馈-参数更新”的闭环优化,提升设备运行效率与可靠性;

(13)

(14)

(15)

(16)。