1.一种消费金融场景下的用户购买行为大数据预测方法,其特征在于,包括以下步骤:
101.对用户的APP操作行为日志数据进行包括对OCC_TIM字段进行切割在内的预处理操作;
102.根据对用户历史APP操作行为日志数据的分析,对训练集和测试集进行特征工程构建,所述对特征工程进行构建是指得到用户历史APP操作行为日志数据构建离散特征、基础统计特征、时序特征、词袋模型特征和词向量模型特征;
103.通过特征选择法对步骤101得到的特征进行降维;
104.建立2个机器学习模型,分别是.xgboost模型和lightgbm模型,.xgboost模型用于预测出结果1,lightgbm模型用于预测出结果2,并将两个机器学习模型基于模型相关性约束排名的融合操作;
105.通过融合操作建立的模型,根据用户个人属性及其历史APP操作行为日志数据对用户在未来一个周是否购买APP上的优惠券进行预测。
2.根据权利要求1所述的消费金融场景下的用户购买行为大数据预测方法,其特征在于,所述步骤101对用户的APP操作行为日志数据进行预处理操作具体步骤为:针对于训练集和测试集中的OCC_TIM字段,该字段表示用户行为发生的具体时间,需要事先将它切割为三列分别是:年、月、日。
3.根据权利要求1所述的消费金融场景下的用户购买行为大数据预测方法,其特征在于,所述步骤102构建离散特征、基础统计特征、时序特征、词袋模型特征和词向量模型特征,具体包括:
1021.离散特征:对于EVT_LBL点击模块字段,对其进行拆分,分为一级模块、二级模块、三级模块,再分别对其离散,每一个模块拥有一列值,这些值是统计了用户对于该模块的点击量;对于TCH_TYP事件类型字段,也做同样的处理,以反映出用户喜好使用的设备类型;
1022.基础统计特征:用户总的点击次数、用户点击天数、用户每天平均点击量、用户各种行为类型次数对用户总次数的占比、用户在一周各天对用户总次数的占比、用户在各个小时对用户总次数的占比;
1023.时序特征:用户点击的时间间隔、用户最大连续点击天数、用户最后一次点击距离最后一天的间隔;对于最后一天的统计包括:总点击,各用户对各一级模块,各用户对二级模块,各用户对三级模块,用户在各小时,用户对各事件类型;对于最后二天的统计包括:总点击,各用户对各一级模块,各用户对二级模块,各用户对三级模块,用户在各小时,用户对各事件类型;在最后一天用户的各种行为类型的占比、在最后二天用户的各种行为类型的占比;前十天,中间十天,最后十天分别统计:用户总次数,用户对各一级模块,用户对各二级模块,用户对各三级模块,用户在各个小时的统计,用户对各个事件的统;分别统计4个区间的用户出现总次数、用户对各个事件的点击总次数,然后再用后一个区间的统计值减去前一个区间的统计值;
1024.词袋模型特征:每个用户在每个一级模块出现的次数、每个用户在每个二级模块出现的次数、每个用户在每个三级模块出现的次数;
1025.词向量模型特征:通过word2vec,得到所有模块的词向量,然后计算每个用户点击过模块的均值向量作为特征;统计一个事先指定窗口大小为5的word共现次数,以word周边的共现词的次数作为当前word的向量,得到一个共现矩阵,然后再对该共现矩阵使用SVD奇异值分解进行降维以及降低稀疏性,得到矩阵U,最后对U进行归一化得到一个稠密矩阵作为词向量特征。
4.根据权利要求3所述的消费金融场景下的用户购买行为大数据预测方法,其特征在于,所述步骤103对构建特征完成的样本集进行特征选择,具体步骤为:首先计算出每一个特征的方差,然后将方差低于阈值0.5的特征删除;然后将剩余特征分别输入算法xgboost、lightgbm、catboost、GBDT、RF、SVM,输出每个特征的特征重要性,以这些输出的特征重要性为基础构建相关矩阵A,再利用PCA将矩阵A降至指定维度500,完成特征选择。
5.根据权利要求3所述的消费金融场景下的用户购买行为大数据预测方法,其特征在于,所述步骤104建立2个机器学习模型,并进行模型融合操作具体步骤为:
1041.xgboost模型:主要设置以下参数'max_depth':3、'objective':'rank:pairwise'、'scale_pos_weight':0.7、'eta':0.02、'min_child_weight':18、'colsample_bytree':0.8、'subsample':0.8;
1042.lightgbm模型:主要设置以下参数'boosting_type':'gbdt'、'num_leaves':
31、'learning_rate':0.01、'feature_fraction':0.8、'bagging_fraction':0.8;
1043.多模型融合:采用基于模型相关性约束的排名融合方法,首先通过两个模型输出的特征重要性,将这两组特征重要性看做两组向量,计算其皮尔逊相关系数h;然后在排名融合的机制中加入这一系数,用于约束模型权重对融合结果的影响,当h越大,即两个模型越相关时,权重系数的影响就会增大,当h越小,即两个模型越不相关,权重系数的影响就会减小,其遵循公式:∑|0.5*(1-h)-(weighti*h)|/ranki公式 (1)其中weighti为第i个单模型根据验证表现得出的权重系数,它根据各个模型验证得分的比例来计算得到,ranki为样本在第i个模型中的预测值排名,即该样本的预测为正的概率值在整个数据集下的升序排名。
6.根据权利要求5所述的消费金融场景下的用户购买行为大数据预测方法,其特征在于,所述步骤105通过建立的模型,根据用户个人属性及其历史APP操作行为日志数据对用户在未来一个周是否购买APP上的优惠券进行预测具体步骤为:融合方式采用基于模型相关性约束的排名融合,其中ranki为第i个模型的rank排序,weighti为第i个模型AUC值所占权重,为了让每个将进行融合的模型都起到一定作用,而不受个别效果突出模型影响过大,首先对 的值取对数进行平滑,再将各模型求和得到的score用于计算最终AUC得分:
当score大于0.9的时候,当取值0.9时,F1值能够达到最优,说明该条测试数据对应的用户很大可能会在未来一周购买APP上的优惠券。