1.基于海量公交数据的人群画像算法,其特征在于,包括如下步骤:步骤S1、数据描述及预处理:获取公交车刷卡数据及POI数据,并进行预处理;
步骤S2、筛选重点地区人群:通过PageRank算法提取出行次数多,且去热点地区次数频繁的乘客轨迹数据;
步骤S3、轨迹文本化:根据POI数据获得乘客所在坐标的所属功能性,根据乘客轨迹数据与乘客所在坐标的所属功能性,获取得到每个乘客的文本轨迹数据;
步骤S4、文本聚类:采用聚类算法对文本轨迹数据聚类,获得人群画像。
2.根据权利要求1所述的基于海量公交数据的人群画像算法,其特征在于,所述步骤S1包括如下步骤:
步骤S11、获取公交车刷卡数据:获取特定时间特定区域的公交出行数据,包括每位乘客的ID、上下车刷卡时间、上下车地点的经纬度,以及每位乘客的年龄属性,得到不同年龄段每位乘客的出行轨迹数据;
步骤S12、获取POI数据:获取该特定区域的POI数据;
步骤S13、公交出行数据预处理:将公交出行数据进行清洗、分类、剔除,获得不同年龄属性的刷卡数据;
步骤S14、POI数据预处理:将POI数据进行功能性划分,获得功能不同的各类POI数据。
3.根据权利要求2所述的基于海量公交数据的人群画像算法,其特征在于,所述步骤S13具体包括如下步骤:
步骤S131、清洗公交出行数据:对存在某些数据为空或数据字段偏移的数据进行数据规范化处理,依据上下文补充数据和删除无法获取信息的数据;
步骤S132、截取清洗后的公交车连续一周内所有的公交车刷卡数据,并且将这些数据按照工作日和休息日进行划分;
步骤S133、将工作日和休息日的数据按照乘客年龄属性划分,得到的6组数据分别为:成年人工作日的刷卡数据、成年人休息日的刷卡数据、老年人工作日的刷卡数据、老年人休息日的刷卡数据、学生工作日的刷卡数据和学生休息日的刷卡数据;
步骤S134、将这6组数据中每日都有乘车记录且乘车次数至少为2次的乘客数据筛选出来,最终得到成年人乘客的刷卡数据、老年人乘客的刷卡数据和学生乘客的刷卡数据。
4.根据权利要求3所述的基于海量公交数据的人群画像算法,其特征在于,所述步骤S2具体包括如下步骤:
步骤S21、根据各公交站点用户上下车频率,计算该站点的重要性数值;
步骤S22、根据用户经过的公交站点的重要性数值,计算用户轨迹的贡献率。
5.根据权利要求4所述的基于海量公交数据的人群画像算法,其特征在于,所述步骤S21中,站点重要性数值的计算公式为:其中,PR(A)是地点A的重要性数值;Ti是指n个指向地点A中的第i个指向地点A的地点;n表示指向地点A的地点个数;PR(Ti)是地点Ti的重要性数值;C(Ti)是地点Ti的出度,也就是Ti指向其他地点的边的个数;d为阻尼系数,即在任意时刻乘客到达某地点后并继续出行的概率。
6.根据权利要求5所述的基于海量公交数据的人群画像算法,其特征在于,所述步骤S22具体包括如下步骤:
步骤S221、将成年人工作日的刷卡数据中的所有公交站点(Mall)和出行的轨迹带入站点重要性数值的计算公式中,得到该组刷卡数据的所有出行公交站点对应的重要性数值PR(Mall);
步骤S222、根据该组人群中每位乘客(u)出行经过的公交站点(n),计算该名乘客轨迹的重要性数值之和,即 ;
步骤S223、对该组刷卡数据经过调试设置一个阈值(T),只有每位乘客轨迹的重要性数值之和大于该阈值,即S(u)>T,才将该乘客的轨迹数据保存下来;保存下来的轨迹数据即为该组刷卡数据中轨迹贡献率高的乘客数据;步骤S224、将剩下5组数据,即成年人休息日的刷卡数据、老年人工作日的刷卡数据、老年人休息日的刷卡数据、学生工作日的刷卡数据,学生休息日的刷卡数据,重复步骤S221‑S223,最后共得到6组轨迹贡献度高的乘客数据。
7.根据权利要求2所述的基于海量公交数据的人群画像算法,其特征在于,所述步骤S3中,获得乘客所在坐标的所属功能性具体包括如下步骤:步骤S31、将功能不同的每一类POI数据的数量Ni进行统计,在将所有的POI数量Nall除以Ni,分别得到该类的权重Wi,即:步骤S32、对于乘客所在坐标范围内的所有POI数据,分别按照这些类别的数量ni进行统计,再将ni乘以该类的权重Wi后,除以该范围内所有的POI数量nall,得到该范围内的每类功能性的概率Pi,即:
步骤S33、因为某些地区存在很多不同功能性的POI,随着时间的流逝该地区的主要功能性可能会发生变化,所以对这些POI类型分别设置时间变化数Oi,最后得到的公式为:步骤S34、将每个坐标点的上下车时间与上下车地点带入步骤S33的公式进行计算,从而分别得到该地区的各个功能性的概率值;选择该地区概率值最高的两个功能性作为该时刻和该地点的功能性。
8.根据权利要求3所述的基于海量公交数据的人群画像算法,其特征在于,所述步骤S4具体包括如下步骤:
步骤S41、通过将每位乘客的文本轨迹数据导入TF‑IDF算法中进行计算,以乘客轨迹作为文档,POI所属功能性作为关键词,得到每位乘客的文本轨迹数据的所属功能性关键词的TF‑IDF值;
步骤S42、采用基于余弦距离的K‑Means算法,将成年人工作日的刷卡数据、成年人休息日的刷卡数据、老年人工作日的刷卡数据、老年人休息日的刷卡数据、学生工作日的刷卡数据、学生休息日的刷卡数据这6组轨迹贡献度高的乘客轨迹数据分别进行聚类。
9.根据权利要求8所述的基于海量公交数据的人群画像算法,其特征在于,所述步骤S41中,TF表示的是关键词在文本出现的频率,即:其中tfu,v表示第u个词条在第v 个文本中出现的频率;nu,v表示词条u在第v个文本中出现的次数, 表示第v个文本中所有词语出现的次数总和, 表示词条k在第v个文本中出现的次数;
IDF表示的是逆向文本频率,即:其中,IDFu表示第u个词条的逆向文本频率;|D|表示所有文本的数量,表示包含词语tu的文本dv的数目;
。
10.根据权利要求8所述的基于海量公交数据的人群画像算法,其特征在于,所述步骤S4还包括如下步骤:
步骤S43、将聚类结果使用T‑SNE算法对聚类算法的结果进行数据降维;
步骤S44、使用散点图展示聚类效果。