1.一种业务流程剩余时间预测方法,其特征在于,包括如下步骤:步骤1.获取事件日志,针对获取的事件日志,基于不同轨迹前缀长度构建数据集,并将该数据集分割为训练集和测试集;所述步骤1中,构建数据集的具体步骤如下:
1.1.遍历事件日志中的每条轨迹,在设定的轨迹前缀长度范围进行截取,得到不同长度的轨迹前缀及其对应的业务流程剩余时间;
1.2.以步骤1.1得到的不同长度的轨迹前缀及其对应的业务流程剩余时间构建数据集;
步骤2.将步骤1获得的训练集分别用于训练随机森林与XGBoost模型;
步骤3.将步骤1获得的测试集分别输入到训练好的随机森林与XGBoost模型中,随机森林与XGBoost模型分别对应输出业务流程剩余时间预测结果,即结果集R步骤4.搭建一个全连接层;
步骤5.将步骤3得到的结果集R
步骤6.定义全连接层的损失函数,以衡量加权平均输出与真实标签之间的差异;
步骤7.将步骤5得到的训练集T
步骤8.全连接层训练完成后,将训练好的随机森林和XGBoost输出的业务流程剩余时间预测结果,输入到训练好的全连接层中,以获得加权平均预测结果集R
2.根据权利要求1所述的业务流程剩余时间预测方法,其特征在于,所述步骤1中,在构建数据集之前,对事件日志进行预处理,预处理过程如下:删除多余的属性以及包含缺失值的事件,以更准确地预测剩余时间。
3.根据权利要求1所述的业务流程剩余时间预测方法,其特征在于,所述步骤2中,对随机森林模型进行训练的过程如下:步骤I.1.遍历事件日志中的每条轨迹,按照指定范围截取每条轨迹,得到不同长度的轨迹前缀及其对应的业务流程的剩余时间,构建数据集,并划分训练集和测试集;
步骤I.2.从训练集中提取事件的活动名、事件类型、活动开始时间、活动结束时间特征中随机选择m步骤I.3.重复步骤I.2,生成H棵决策树;对于一个新的输入特征J,让每棵决策树都进行预测,然后将各棵决策树的输出取平均值,得到预测结果;
步骤I.4.使用损失函数衡量预测结果与真实值之间的误差,并引入正则项;
步骤I.5.采用五折交叉验证的方式对随机森林模型性能进行评估;
步骤I.6.利用训练完成的随机森林模型对新的业务流程进行剩余时间预测,得到输出结果,即以不同轨迹前缀长度为基准的情况下业务流程剩余时间的预测结果。
4.根据权利要求1所述的业务流程剩余时间预测方法,其特征在于,所述步骤2中,对XGBoost模型进行训练的过程如下:步骤II.1.遍历事件日志中的每条轨迹,按照指定范围截取每条轨迹,得到不同长度的轨迹前缀及其对应的业务流程的剩余时间,构建数据集,并划分训练集和测试集;
步骤II.2.根据业务流程的剩余时间的平均数和方差指标生成初始叶子节点:其中,var表示所有相同轨迹前缀的业务流程剩余时间的方差;
步骤II.3.通过XGBoost进行预测,计算相同轨迹前缀的业务流程剩余时间真实值y其中,r
步骤II.4.计算随机抽取的训练数据集中的新样本的权重:其中,h(x
步骤II.5.使用带有样本权重的训练集构造一棵新的决策树;
步骤II.6.加入新的决策树后,重新优化业务流程剩余时间的目标函数;
步骤II.7.XGBoost模型更新;
将新构造的决策树加入到当前的模型中,更新模型的预测值,其公式如下:F(
其中,F(
步骤II.8.重复步骤II.5至II.7,构造多棵决策树,直到达到树的数量,每一棵树都在前一棵树的残差基础上进行构建,并输出最终训练好的XGBoost模型;
步骤II.9.利用训练完成的XGBoost模型对新的业务流程进行剩余时间预测,获得输出结果,即在考虑不同轨迹前缀长度的情况下对业务流程剩余时间的预测结果。
5.根据权利要求4所述的业务流程剩余时间预测方法,其特征在于,所述步骤II.5中,采用CART算法构建决策树,其过程如下:输入训练集,停止计算的条件即树的最大深度;输出CART决策树;根据训练集,从根结点开始,递归地对每个结点进行以下操作,构建二叉决策树;
步骤II.5.1.获取事件日志,每个事件具有活动名、事件类型、活动开始时间、活动结束时间以及对应的业务流程剩余时间特征;
步骤II.5.2.对于每个节点,通过最小化每个划分后子集的均方误差找到最佳的划分特征;
步骤II.5.3.定义阈值为t,将训练集分为两部分,即小于或等于阈值的部分D步骤II.5.4.递归构建子树;
对于每个子集,递归地重复步骤II.5.2和步骤II.5.3,直到达到树的最大深度;
步骤II.5.5.生成CART决策树;将上述步骤递归执行,直到形成完整的决策树;每个节点代表一个特征判断,每个叶子节点代表一个数值;
步骤II.5.6.在生成的树上进行剪枝操作。
6.一种计算机设备,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,其特征在于,所述处理器执行所述可执行代码时,实现如权利要求1至5任一项所述的业务流程剩余时间预测方法的步骤。
7.一种计算机可读存储介质,其上存储有程序,其特征在于,该程序被处理器执行时,实现如权利要求1至5任一项所述的业务流程剩余时间预测方法的步骤。