1.一种风险行为识别方法,其特征在于,该方法包括以下步骤:根据行为日志数据,抽取设定用户集合内每个用户的各个特定行为,并对每个用户的所有特定行为在时间窗口内按时间排序得到每个用户的特定行为序列;
利用预设的强规则找出设定用户集合内高风险的嫌疑用户,将其记为第一用户集合,并将设定用户集合剩余的用户记为第二用户集合;
根据特定行为序列设定特定行为对,计算第一用户集合中每个用户每组特定行为对的第一转移概率,以及计算第二用户集合中每个用户每组特定行为对的第二转移概率;
对于相同的特定行为对,判断第一转移概率和第二转移概率的差值是否在预设范围内,若否,则将该特定行为对记为风险特定行为对;以及计算每组风险特定行为对的信息熵,根据信息熵大小判断用户是否为嫌疑用户。
2.如权利要求1所述的风险行为识别方法,其特征在于:每个用户的特定行为序列记为其中Su是用户u的特定行为序列,atu是用户u的第t个特定行为,t=1,2,
3...ku,并为每个特定行为一一对应赋予状态值,状态值记为cn,n=1,2,3...ku。
3.如权利要求2所述的风险行为识别方法,其特征在于,
计算每个用户每组特定行为对的第一转移概率的步骤包括:
计算第一用户集合S发生两次连续的特定行为的次数Npq(S),其中第一个特定行为状态值为cp而第二个特定行为状态值为cq,p=1,2,3...ku,q=1,2,3...ku;
计算第一用户集合S中状态值为cp的特定行为发生的总次数Np(S);
根据公式 计算第一个特定行为状态值为cp而第二个特定行为状态值为cq的第一转移概率ppq(S);
计算每个用户每组特定行为对的第二转移概率的步骤包括:
计算第二用户集合R发生两次连续的特定行为的次数Npq(R),其中第一个特定行为状态值为cp而第二个特定行为状态值为cq,p=1,2,3...ku,q=1,2,3...ku;
计算第二用户集合R中状态值为cp的特定行为发生的总次数Np(R);
根据公式 计算第一个特定行为状态值为cp而第二个特定行为状态值为cq的第二转移概率ppq(R)。
4.如权利要求1所述的风险行为识别方法,其特征在于:通过公式计算每组风险特定行为对的信息熵;
其中,H为信息熵;
Ci为用户类别,i=1,2,其中i=1时表示包含某个风险特定行为对的用户,i=2时表示不包含该风险特定行为对的用户;
Cji为用户类别,j=1,2,i=1,2,其中j=1时表示嫌疑用户,j=2时表示正常用户,i=1时表示包含某个风险特定行为对的用户,i=2时表示不包含该风险特定行为对的用户;
p(Ci)表示用户类别Ci的用户数量在设定用户集合中的占比;
p(Cji)表示在嫌疑用户中包含或者不包含某个风险特定行为对的用户数量占嫌疑用户总数的概率,和正常用户中包含或者不包含某个风险特定行为对的用户数量占正常用户总数的概率。
5.如权利要求1所述的风险行为识别方法,其特征在于:所述特定行为包括注册、登陆、观看直播和发弹幕。
6.一种存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现上述权利要求1至6中任一项所述方法的步骤。
7.一种设备,包括存储器、处理器及存储在所述存储器上并在所述处理器上运行的计算机程序,其特征在于:所述处理器执行所述计算机程序时实现上述权利要求1至6中任一项所述方法的步骤。
8.一种风险行为识别系统,其特征在于,包括:
生成模块,其用于根据行为日志数据,抽取设定用户集合内每个用户的各个特定行为,并对每个用户的所有特定行为在时间窗口内按时间排序生成每个用户的特定行为序列;
分类模块,其用于根据预设的强规则找出设定用户集合内高风险的嫌疑用户,将其记为第一用户集合,并将设定用户集合剩余的用户记为第二用户集合;以及计算模块,其根据特定行为序列设定特定行为对,并计算第一用户集合中每个用户每组特定行为对的第一转移概率,以及计算第二用户集合中每个用户每组特定行为对的第二转移概率;所述计算模块还用于对于相同的特定行为对,判断第一转移概率和第二转移概率的差值是否在预设范围内,若否,则将该特定行为对记为风险特定行为对,并计算每组风险特定行为对的信息熵,根据信息熵大小判断用户是否为嫌疑用户。
9.如权利要求8所述的风险行为识别系统,其特征在于:所述特定行为包括注册、登陆、观看直播和发弹幕。
10.如权利要求8所述的风险行为识别系统,其特征在于:所述计算模块根据所述信息熵较大的风险特定行为对区分嫌疑用户和正常用户。