欢迎来到知嘟嘟! 联系电话:13336804447 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13336804447
知嘟嘟经纪人
收藏
专利号: 202010017938X
申请人: 重庆邮电大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-02-23
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于移动大数据的预出境用户识别方法,其特征在于,该方法具体包括以下步骤:

S1:采集出境服务机构的通信基站位置数据、出境服务通话端口数据和出境服务APP的域名关键词数据,利用所采集数据建立维表数据库;

S2:基于维表数据库与移动大数据,分别提取用户的通话行为特征、上网行为特征、出行行为特征和静态特征;

S3:将用户的行为特征和静态特征进行聚合关联,构建特征宽表;

S4:设计特征选择算法,从特征宽表中筛选与类别强相关的特征子集;

S5:借助逻辑回归分类器构建预出境用户识别模型,完成模型的训练、评估与调参;

S6:将待测试数据输入识别模型,识别预出境用户。

2.根据权利要求1所述的一种基于移动大数据的预出境用户识别方法,其特征在于,步骤S1中,所述维表数据库包括基站维表、APP维表和通话维表,具体构建方法为:

1)采集出境服务机构归属通信基站信息,依据出境服务机构与归属通信基站的一对多映射关系,构建基站维表;

2)采集出境服务APP的详细网络封包信息,撷取APP的域名和关键词,依据APP与域名、关键词的一对多映射关系,构建APP维表;

3)采集出境服务机构的服务通话端口信息,验证通话端口有效性,依据出境服务机构与通话端口的一对多映射关系,构建通话维表。

3.根据权利要求1所述的一种基于移动大数据的预出境用户识别方法,其特征在于,步骤S2中,

1)所述通话行为特征包括国际通话行为特征和国内通话行为特征,其中:

A、国际通话行为特征提取步骤包括:从CDR话单中提取有国际通话记录的用户信息;统计用户在数据周期内的总通话时长T1、总通话频次F1和总的通话端口数N1;设定通话频次阈值Fy1;剔除通话频次超过Fy1的用户数据;最后得出用户与每个端口的月均通话时长Tv1和通话频次Fv1;

B、国内通话行为特征提取步骤包括:从CDR话单中提取与目标通话端口产生通话记录的用户信息;设定单次通话时长阈值Ty1;剔除单次通话时长Teach小于Ty1的用户数据;统计用户在数据周期内与各通话端口的总通话时长T2、总通话频次F2和各类型的通话端口数N2;最后得出用户和各类型端口的月均通话时长Tv2和通话频次Fv2;

2)所述上网行为特征的提取步骤包括:从上网日志中提取可能使用目标APP的用户信息;设定上网流量阈值Fy2;剔除上网流量Feach小于Fy2的用户数据;统计用户在数据周期内使用的各APP的总上网流量F3、总上网频次F4和各类型的APP数量N3;最后得出用户使用各类型APP的月均流量Fa1和月均频次Fa2;

3)所述出行行为特征的提取步骤包括:从用户轨迹数据中提取在目标地理位置驻留过的用户信息;计算用户每次在目标地理位置的驻留时长T3;设定单次驻留时长阈值Ty2;剔除单次驻留时长T3小于Ty2的用户数据;剔除居住或工作在目标地理位置的用户数据;统计用户每日在目标地理位置的总驻留时长T4、日出行频次F5和去往各类型目标地理位置的数量N4;最后得出用户在各类型目标地理位置的日均驻留时长Tt1和日均出行频次Ft1;

4)所述静态特征提取的步骤包括:提取用户的年龄和性别信息,对缺失值进行填充处理;对性别进行属性转换,将男女转换为数值0-1;利用自定义分箱法对年龄数据进行离散化处理,首先将年龄转换为年龄区间,然后将年龄区间转换为数值1-6;将转换后的性别、年龄数据作为用户静态特征。

4.根据权利要求1所述的一种基于移动大数据的预出境用户识别方法,其特征在于,步骤S3中,所述构建特征宽表的具体步骤包括:将上网特征用户集合U1、出行轨迹特征用户集合U2、国内通话特征用户集U3、国际通话特征用户集合U4和静态特征用户集合U5中的用户ID进行聚合和剔重,得到全部用户集合U6;将全部用户集合U6通过布尔运算式分别和特征用户集合U1、U2、U3、U4和U5进行关联匹配,使得同一用户的所有特征汇聚到一起,得到特征聚合后的用户集合U7。

5.根据权利要求1所述的一种基于移动大数据的预出境用户识别方法,其特征在于,步骤S4中,所述特征子集筛选的具体步骤包括:确定用于训练的特征数目M1,依据特征和类别的相关性,设定特征评价函数J(x);利用随机森林进行特征重要性排序,筛选出Top M1特征集合Fa;利用GBDT进行特征重要性排序,筛选出Top M1特征集合Fb;利用LightGBM进行特征重要性排序,筛选出Top M1特征集合Fc;将集合Fa、Fb、Fc中的特征进行融合剔重,得到特征集合Fd;采用序列后向选择算法,每次从特征集合Fd中剔除特征x,使得评价函数J(x)最优;直到特征集合的数量达到设定的特征数目M1为止。

6.根据权利要求5所述的一种基于移动大数据的预出境用户识别方法,其特征在于,步骤S4中,设定的特征评价函数J(x)为:其中,x为特征集合中的一个特征,Y为类别,N为训练样本数目。

7.根据权利要求1所述的一种基于移动大数据的预出境用户识别方法,其特征在于,步骤S5中,所述的借助逻辑回归分类器构建预出境用户识别模型的具体步骤包括:设置构建逻辑回归算法模型的特征数据x、算法参数以及标签变量;对特征数据x进行归一化处理;算法参数包含惩罚项P、最大迭代次数N5、迭代终止判断的误差范围E、正则化类型L、正则化强度C、并行数N6和分类类型M;标签变量y为一个标识用户是否为预出境用户的字段;逻辑回归算法模型看作是自变量x与因变量y的关系,即y=h(x);对模型进行训练、评估和调参,使模型性能达到最优。

8.根据权利要求7所述的一种基于移动大数据的预出境用户识别方法,其特征在于,步骤S5中,加入正则化后的逻辑回归损失函数L(w)为:其中,p为范数,p=1为L1正则化,p=2为L2正则化;xi为训练集中第i条特征数据,p(xi;

w)为训练集第i条特征数据属于正例的概率,1-p(xi;w)为训练集第i条特征数据属于反例的概率,yi为训练集第i条特征数据所对应的真实标签值,m为训练样本数目,w为变量x的加权系数。