1.融合用户特征和嵌入学习的跨社交网络用户身份关联方法,其特征在于包括如下步骤:
步骤1.给定社交网络SMNA和社交网络SMNB,并通过人工标注获取少量种子用户对集合MPprior;
步骤2.利用用户的连接关系使用网络嵌入方法学习得到社交网络SMNA和社交网络SMNB中每个节点的结构嵌入向量,利用种子用户对集合MPprior训练多层感知机模型,作为两个社交网络间节点的结构嵌入向量空间的映射函数;
步骤3.从种子用户对集合MPprior中随机选取一对种子用户c,利用该对种子用户c从两个社交网络中选取候选配对用户对集合;
步骤4.针对候选配对用户对集合中的每对候选配对用户对,利用用户名、毕业院校和地理位置以及个人简介的特征,通过Levenshtein距离和简单字符串匹配得到候选配对用户对的用户属性匹配度;
步骤5.针对候选配对用户对集合中的每对候选配对用户对,根据训练好的多层感知机模型,将社交网络SMNA用户的嵌入特征空间映射到社交网络SMNB用户的嵌入特征空间,再计B
算社交网络SMNA用户的映射向量与社交网络SMN 用户的嵌入向量之间的欧式距离作为两用户的朋友匹配度;
步骤6.利用用户属性匹配度和朋友匹配度的匹配准则得到匹配用户对,并将匹配用户对加入到匹配用户对集合MP中;
步骤7.将步骤3中选取的一对种子用户c从种子用户对集合MPprior中删除,并将匹配用户对加入种子用户对集合MPprior,返回步骤3,直到种子用户对集合MPprior为空。
2.根据权利要求1所述的融合用户特征和嵌入学习的跨社交网络用户身份关联方法,其特征在于步骤1具体实现如下:
1‑1.给定的社交网络SMNA和社交网络SMNB,分别表示为SMNA={UA,EA},SMNB={UB,EB};
UA表示社交网络SMNA的用户实体集合,EA为社交网络SMNA的用户关系,UB表示社交网络SMNB的用户实体集合,EB为社交网络SMNB的用户关系,UAi代表用户实体集合UA中的第i个用户,UBj代表用户实体集合UB中的第j个用户;若用户UAi和用户UBj在现实生活中属于同一个体,则(UAi,UBj)∈MP,MP为匹配用户对集合;
1‑2.通过人工标注段获取少量种子用户对集合MPprior,其中种子用户对集合MPprior是已知的匹配用户对。
3.根据权利要求2所述的融合用户特征和嵌入学习的跨社交网络用户身份关联方法,其特征在于步骤2的具体实现过程如下:
2‑1.针对社交网络SMNA中用户的连接关系对社交网络SMNA进行嵌入学习;给定节点UAj和节点UAi的嵌入向量分别为zAj和zAi,按照下式计算社交网络SMNA中节点UAj和节点UAi间存在边(UAi,UAj)的概率为:
基于此,社交网络SMNA嵌入学习的目标函数:其中,σ(x)代表sigmoid函数,EA为社交网络SMNA中用户关系;
2‑2.针对社交网络SMNB中用户的连接关系对社交网络SMNB进行嵌入学习;给定节点UBi和UBj的嵌入向量分别为zBi和zBj,按照下式计算社交网络SMNB中节点UBi和UBj间存在边的概率为:
基于此,社交网络SMNB嵌入学习的目标函数为:其中,EB为社交网络SMNB中边的用户关系;;
2‑3.综合两个网络的目标函数得到网络嵌入学习的最终目标函数:为了学习到嵌入向量,需要对最终目标函数O进行最小化;采用随机梯度下降法分别对O1和O2进行最小化求解;同时采用负采样方法解决目标函数求解过程中的耗时较大问题,对于每条边(UAi,UAj),重新根据下式计算logp(UAj,UAi):其中, 对边(UAi,UAj)建模, 对负采样边(UAi,UAk)建模,N代表负采样边的个数,设定N=5;针对负采样边的生成,即在选取了UAi后,如何选取另外一个节点形成负采样边,采用目前通用的负采样方法确定噪声分布pn(U)如下:其中,dU代表节点U的度;基于噪声分布pn(U),采样N个节点与节点UAi构成N条负采样边;按照同样方法计算logp(UBj,UBi):
2‑4.学习到所有节点的嵌入向量后,根据种子用户对的嵌入向量,学习SMNA和SMNB中节点的结构嵌入向量之间的映射函数 给定zAi∈ZA,映射函数 将向量zAi映射到向量空间ZB;其中,θ代表映射函数的参数集合;利用多层感知器模型构建非线性映射函数获得向量空间ZA到向量空间ZB的映射关系;设计的多层感知器模型包括输入层、隐藏层和输出层;隐藏层单元个数设定为2*d,d为输入层个数,即向量zAi的维度;将种子用户对的结构嵌入向量作为训练数据,对MLP模型进行训练。
4.根据权利要求2或3所述的融合用户特征和嵌入学习的跨社交网络用户身份关联方法,其特征在于步骤3的具体实现过程如下:设UAi和UBj分别为两个社交网络中的先验种子用户,即UAi和UBj代表不同网络中的同一用户;如果满足UAk∈friend(UAi),UBl∈friend(UBj),则(UAk,UBl)属于候选配对用户对CMP,其中,friend(UAi)={UAj|(UAi,UAj)∈EA}。
5.根据权利要求4所述的融合用户特征和嵌入学习的跨社交网络用户身份关联方法,其特征在于步骤4具体实现过程如下:
4‑1.针对用户名、个人简介的信息,将其看作字符串并采用Levenshtein距离进行度量;将两个用户名U1和U2之间的用户名相似度Simu(U1,U2)按照下式进行计算:其中,lev(U1,U2)表示用户U1和U2之间的Levenshtein距离,l(U1)、l(U2)分别表示用户名U1和U2的字符数;
4‑2.针对毕业院校和地理位置的信息,若相同的院校和地理位置则匹配度为1,否则为
0。
6.根据权利要求5所述的融合用户特征和嵌入学习的跨社交网络用户身份关联方法,其特征在于步骤5具体实现过程如下:
5‑1.针对候选配对用户对中的每对用户对,根据训练好的MLP模型,通过映射函数将向量zAi映射到向量空间ZB,再计算 和向量zBj之间的距离得到用户UAi和用户UBj的用户匹配度:
7.根据权利要求6所述的融合用户特征和嵌入学习的跨社交网络用户身份关联方法,其特征在于步骤6具体实现过程如下:针对候选配对用户对集合中的候选配对用户对,计算每对候选配对用户对中两用户的匹配分值,选取匹配分值最大的候选配对用户对为匹配用户对,并将其加入到集合MP中;匹配分值Mat_score计算如下:k
Mat_score(UAi,UBj)=(1‑α)R(UAi,UBj)+αf(F_Matchij) (10)其中,Matchk(UAi,UBj)表示为用户UAi和用户UBj在第k种匹配因子上的匹配度,1≤k≤|K|,k表示规则使用的匹配因子种类标记,K表示所有的属性匹配因子的种类集合,|K|代表匹配因子种类的总个数,参数α用于平衡属性匹配值和朋友匹配度,wk代表第k种匹配因子的权重;根据不同的数据集调整α和wk的值。