1.一种基于DQN的时空众包任务分配方法,其特征在于该方法包括以下步骤:步骤1、从环境获取到工作者Wi和其可选择的任务列表Ti;具体包括:步骤1.1、在时刻i,请求者发布时空众包任务到众包平台中;
步骤1.2、在某一工作者Wi到来后,获取到一系列的众包任务;
步骤1.3、根据约束,筛选为一个可选任务列表Ti;
步骤2、提取工作者Wi的特征向量和可选任务列表Ti的特征向量,连接成特征向量fsi,具体步骤如下:步骤2.1、提取可选任务列表Ti的特征向量fti;
对于回报,表示为该任务的收益在所有可用任务中的排名;
对于成本,考虑为两部分,一部分是拾取成本,即获取任务在所有的任务中的排名;另一部分是交付成本,即完成任务在所有的任务中的排名;
对于任务类型,考虑任务发起在一天的不同阶段;
对于位置,通过geohash方法对它们进行编码;
步骤2.2、提取工作者Wi的特征向量;
将工作者Wi的特征向量fwi表示为其最近完成任务的特征的加权均值;
步骤2.3、将工作者Wi和可选任务列表Ti的特征向量组合成完整的特征向量fsi;通过联合fti和fwi,获得了fsi;将fsi作为DQN的输入;
步骤3、通过神经网络预测出推荐给Wi的可能性,具体步骤如下:步骤3.1、将特征向量fsi分别放入代表工作者的Q网络和代表请求者的Q网络中,预测出推荐行为(ai)在两个网络的分数;
在所述Q网络包括第一线性层、第二线性层、第三线性层、第一soft‑attention层、第二soft‑attention层、第一self‑attention层和第二self‑attention层;其中:第一线性层、第二线性层之间为第一soft‑attention层和第一self‑attention层;第二线性层、第三线性层之间为第二soft‑attention层和第二self‑attention层;
第一线性层用于将特征向量fsi转化为更高维度的特征;
层数为8的第一soft‑attention层和层数为8的第一self‑attention层用于计算工作者Wi与可选任务列表Ti间不同组合的特征权重;
第一self‑attention层后为第二线性层,有助于保持网络的稳定;
第二线性层之后层数为1的第二soft‑attention层和层数为1的第二self‑attention层,使得Q网络能够计算工作者Wi与可选任务列表Ti间的高阶成对交互;
第三线性层将每个元素的特征简化为一个值;
步骤3.2、将两个分数加权平均后,排序成一个推荐列表;
步骤4、当工作者Wi获得推荐列表后,认为Wi按照顺序依次浏览后,选取其中一个完成;
步骤5、根据工作者Wi完成任务的情况,量化推荐列表作为评价(ri);
步骤6、统计成功的转移过程(Si,ai,ri,Si+1)和失败的转移过程(Si,ai,0,Si+1),将其放入训练池中;
步骤7、使用训练池中的数据,训练代表工作者的Q网络;
步骤8、使用训练池中的数据,训练代表请求者的Q网络;
其中在步骤2.2中:在已完成的任务中,工作者Wi完成的时间离时刻i越近,特征向量的占比越高。
2.根据权利要求1所述的一种基于DQN的时空众包任务分配方法,其特征在于,在步骤
2.2中:
在不同的时刻,可选任务的数量是不同的,限制任务的最大数量,设定为maxT;
当可选任务的数量不够时,使用0进行填充,以固定fsi的数量。