1.一种Spark平台下基于GPS数据的出租车调配方法,其特征在于,包括以下步骤:
101、从调度中心获取出租车历史GPS数据,并将该出租车历史GPS数据部署到Spark平台上,对历史GPS数据的每个数据模块都并行预处理操作,具体包括:S1011、从调度中心获取历史出租车GPS数据,把历史GPS数据部署到Hadoop分布式文件系统HDFS中,spark是兼容HDFS分布式存储系统,生成m个数据块;
S1012、并行的读入每个数据块,得到具有m个partition分区的弹性分布式数据集RDDa;
S1013、对RDDa的每一个partition进行并行的预处理操作,所述的预处理操作是指:若该条GPS数据满足存在相邻两条坐标记录时间跨度超过k分钟,则删除该条数据;若k分钟内存在缺失的GPS坐标记录,则对该条数据进行补全,对该条数据进行地图匹配;
102、从预处理后的数据中选取模型所需要的特征,提取出租车轨迹特征并建立回归模型,所述步骤S102提取出租车行驶特征具体为:S1021、对预处理后的RDDa的每个partition进行并行的特征提取操作,并生成RDDb,所述的特征提取操作是指:提取出路线标识、出租车标识、时间戳、日期类别、轨迹开始和结束时间、路径坐标记录和用户行为信息特征;
S1022、对RDDb使用persist()方法缓存数据集,生成RDDd;
S1023、对RDDb的每个partition进行并行的特征矩阵提取,生成RDDc,以RDDc构建学习模型;
103、在Spark平台下对出租车的实时GPS数据进行提取并根据回归模型预测其未来的路径、终点位置以及到达时间,具体包括步骤:进行HDFS读入从调度中心获取的实时出租车GPS数据,生成n个数据块;并行的读入每个数据块,得到具有n个partition的RDDe;
对RDDe的每个partition进行预处理操作,当该条实时GPS数据存在缺失数据,则对该条数据进行补全,使用Google Map提供的接口对该条数据进行地图匹配,同时考虑到该出租车的历史轨迹数据、当前时间、当天日期类型和路况方面的因素,从地图中找到最为合理的路径进行GPS数据补全;
对预处理后的RDDe的每个partition进行并行的特征提取操作,并生成RDDf;对RDDf使用persist()方法缓存数据集,生成RDDh;对RDDf的每个partition进行并行的特征矩阵提取,生成RDDg,构建测试数据;
通过RDDh.cartesian方法对不同的数组进行笛卡尔操作生成RDDi,其中每一个键值对为(key,value),key为某一条测试样本的ID,value为与该测试样本路径相匹配记录的ID;
所述笛卡尔操作具体是指:对RDDh中的每条记录和RDDd中的每条记录进行DTW路径匹配,得出相匹配的键值对(key,value),在时间序列中,需要比较相似性的两段时间序列的长度可能并不相等,在轨迹路径匹配领域表现为同一段路径上车子的GPS坐标;
通过RDDi.groupByKey()方法合并匹配结果为RDDj,其中每个k-value值为(key,{value1,value2,...,valuel}),其中key为测试样本ID,{value1,value2,...,valuel}为与测试样本key路径相匹配的训练样本的ID集合;
对RDDj进行map操作,形成对应每个key的匹配矩阵,存储在RDDk中;
使用RDDk中每个匹配的矩阵构建相应的决策树预测模型,并使用决策树预测模型预测测试数据下一个GPS位置P[x,y];若坐标P[x,y]为终点坐标,则停止预测,记终点坐标为Pend[x,y];反之,若P[x,y]不是终点坐标,则使用CC算法预测下一个GPS坐标路径,直至求出最后的终点坐标Pend[x,y];
根据预测的终点坐标Pend[x,y],对该条实时数据key,在DTW匹配的路径集合{value1,value2,...,valuel}中找到更为合适的路径{p1,p2,...,ph},来预测该条实时GPS数据到达终点的时间t,通过预测模型得到出租车位置标记点,即为出租车以大概率行驶的轨迹点;
104、根据预测结果对出租车的调配进行优化。
2.根据权利要求1所述的Spark平台下基于GPS数据的出租车调配方法,其特征在于,所述地图匹配使用Google Map提供的接口对该条数据进行地图匹配,同时考虑到该出租车的历史轨迹数据、当前时间、当天日期类型和路况在内的因素,从地图中找到最为合理的路径进行GPS数据补全,其中时间段k的设置依据为:考虑到该时间段长度对于地图匹配方法的影响,设置时间段k的取值为10分钟。
3.根据权利要求1或2所述的Spark平台下基于GPS数据的出租车调配方法,其特征在于,所述步骤104根据预测结果对出租车的调配进行优化具体包括:根据预测出的结果对出租车的调配进行优化,根据预测出的结果大致推断出未来一段时间出租车的行驶轨迹、终点坐标以及到达终点的时间,根据这些信息对空车进行相应的调配,显示预测信息到相应终端,达到为乘客提供高效的乘车方案;所述对空车调配的优化是指:预测出下一段时间内哪些区域的车辆比较多,哪些区域的车辆比较少,使一些空车进行有趋向性的流动,以对空车的调配进行优化;所述为乘客提供高效的乘车方案是指:乘客可以根据预测的时间和终点合理安排自己的时间和等车地点。