1.一种基于行为决策网络粒子群优化的柔性车间调度方法,其特征在于:包括,根据加工工件各工序所需使用的机器及加工时间初始化搜索空间及约束条件;
初始化参数,并基于所述搜索空间及约束条件随机生成初始种群,并根据所述初始种群对行为决策神经网络进行初始化;
将初始种群中粒子的位置输入所述行为决策神经网络,根据行为决策神经网络的输出结果对粒子的位置和适应值进行更新;
结合粒子的适应值的变化情况和强化学习策略对行为决策神经网络隐藏层结点的中心位置、宽度进行更新,并更新隐藏层结点与动作执行节点间的权值;
计算输入的粒子的下一位置和适应值,通过所述适应值选取最优粒子;
判断工件生产是否满足结束条件,若满足则输出最小完工时间,否则,则重新将初始种群中粒子的位置输入所述行为决策神经网络,根据行为决策神经网络的输出结果对粒子的位置和适应值进行更新;
其中,所述约束条件为工件的工序顺序约束,所述搜索空间为粒子的搜索范围,搜索空间的维数为任务总加工工序数Q,其中,每一维的范围是0~单个工件的工序数。
2.如权利要求1所述的基于行为决策网络粒子群优化的柔性车间调度方法,其特征在于:所述初始化参数包括,设置初始种群大小为100个粒子,最大进化代数为500代。
3.如权利要求2所述的基于行为决策网络粒子群优化的柔性车间调度方法,其特征在于:初始化所述行为决策神经网络包括,所述神经网络包括输入层、隐藏层和输出层;
将隐藏层结点的中心初始化为初始种群中的粒子,将权值初始化为(0,1)间的随机数。
4.如权利要求1或2所述的基于行为决策网络粒子群优化的柔性车间调度方法,其特征在于:更新粒子的位置包括,更新粒子的位置xi:
xi(t+1)=xi(t)+w*vi+c1*r1*(gbest‑xi(t))+c2*r2*(μnr‑xi(t))c1=C‑c2
其中,xi(t)为t时刻的粒子的位置,w表示惯性权重,vi表示粒子上一时刻的速度,r1和r2为两个属于(0,1)的随机数,gbest表示全局最优粒子位置,μnr表示离当前粒子最近的子群中心位置,c1表示向全局最优粒子学习的加速系数,c2表示向对应子种群中心学习的加速系数,Δ代表加速系数c2的变化,C为加速系数c1和加速系数c2的和。
5.如权利要求4所述的基于行为决策网络粒子群优化的柔性车间调度方法,其特征在于:还包括,强化学习策略的反馈表示为:
t t+1
其中,t和t+1代表相邻两个时刻;fi 和fi 代表第i个输入粒子在相邻两个时刻的适应t+1 t值;当fi <fi时,行为决策神经网络将得到正反馈,此时将对输出层的动作执行节点进行奖励,使其后续输出更接近于1;反之,将对其进行惩罚,使之更接近于0;
根据下式分别对行为决策神经网络隐藏层结点的中心位置、宽度进行更新:μnr′=μnr+Δμnr
σnr′=σnr+Δσnr
其中,μnr和σnr分别表示更新前的隐藏层结点的中心位置、宽度,μnr′和σnr′分别表示更新后的隐藏层结点的中心位置、宽度,Δμnr和Δσnr表示隐藏层结点的中心位置、宽度的变化,Δαnr表示权值的变化,αnr表示隐藏层结点与动作执行节点间的权值,αnr′为更新后的权值,η为学习率,znr表示输出层节点的输入,yi是动作执行节点i的实际输出,dnr是根据奖惩情况推出的应得输出,当受到奖励时,dnr设为1,否则,dnr设为0;
还包括,
通过反向传播策略更新隐藏层结点与动作执行节点间的权值αnr:αnr′=αnr+Δαnr
Δαnr=ηznr(dnr‑yi)yi(1‑yi)。
6.如权利要求5所述的基于行为决策网络粒子群优化的柔性车间调度方法,其特征在于:还包括,每个粒子利用输出层最大输出节点来确定将要执行的动作:其中,s为三个输出层节点的序号,Action为最终选取的最大的输出层节点所对应的动作。
7.如权利要求6所述的基于行为决策网络粒子群优化的柔性车间调度方法,其特征在于:还包括,根据环境的变化,自动调整隐藏层节点,即调整各子群的中心,将当前粒子位置选择作为新的隐藏层中心需同时满足以下两个条件:其中,emin和ε分别代表距离和重要性阈值;第一个条件确保只有此粒子离所有现存子群中心距离大于重要性阈值才会被考虑添加为新的隐藏层节点;第二个条件用于确保该粒子在其作为中心的子群的重要性,该新添加的子群中心可用于反映其所属子群的搜索特性。
8.如权利要求7所述的基于行为决策网络粒子群优化的柔性车间调度方法,其特征在于:还包括,如果某一中心对于其子群中所有粒子的影响力小于阈值emin,该中心则会被认为是不适合的,并会被删除,删除不适合当前环境的隐含层中心需满足下式:其中,Enr为中心xj对于其子群中所有粒子的影响力,p表示xj作为中心所对应子群中的粒子数目。
9.如权利要求1或8所述的基于行为决策网络粒子群优化的柔性车间调度方法,其特征在于:所述结束条件包括,完成生产或已到达最大进化代数。