1.一种融合用户状态信息的跨社交网络用户对齐方法,其特征在于,所述方法包括:采用随机游走采样的方式提取社交网络中的用户的局部特征;
采用迭代的方式计算出社交网络中的用户的状态值,循环比较具有相似状态值的用户集合作为该用户的全局特征;
将局部特征和全局特征输入到词向量模型中的神经网络模型中,将所述社交网络用户映射为低维特征向量;
将用户在两个社交网络中的低维特征向量采用预设的映射函数进行对齐,输出源社交网络中的用户与目标社交网络中的用户中可能存在的潜在对齐用户对。
2.根据权利要求1所述的一种融合用户状态信息的跨社交网络用户对齐方法,其特征在于,所述采用随机游走采样的方式提取社交网络中的用户的局部特征包括按照深度优先游走和广度优先游走分别设置出对应的第一游走参数和第二游走参数;按照所述第一游走参数和第二游走参数计算出用户游走的概率分布;按照所述概率分布计算出当前用户到其他邻居用户的转移概率;确定出用户游走的路线即随机游走序列,即为用户的局部特征。
3.根据权利要求2所述的一种融合用户状态信息的跨社交网络用户对齐方法,其特征在于,按照所述概率分布计算出当前用户到其他邻居用户的转移概率包括:其中,P(vj|vi)表示当前用户vi游走到其邻居用户vj的转移概率;wij表示用户vi和用户vj之间的边权重;Z表示标准化常数;E表示社交网络中边集合;Tpq(t,vj)表示当前用户vi基于其起始用户t到其不同邻居用户vj的转移概率分布,p表示深度优先游走对应的第一游走参数;q表示广度优先游走对应的第二游走参数;dis(t,vj)表示起始用户t到用户vj的距离。
4.根据权利要求1所述的一种融合用户状态信息的跨社交网络用户对齐方法,其特征在于,所述采用迭代的方式计算出社交网络中的用户的状态值包括:其中,S(vi)表示用户vi的状态值;π表示用户vi到邻居用户的概率,(1‑π)表示用户vi到其他非邻居用户的概率;|V|表示社交网络中的用户数,n(vi)是用户vi的邻居集合;L(vj)表示用户vj的出链数;S(vj)表示用户vj的状态值。
5.根据权利要求1所述的一种融合用户状态信息的跨社交网络用户对齐方法,其特征在于,所述循环比较具有相似状态值的用户集合作为该用户的全局特征包括当相邻两次迭代的状态值的差异达到指定阈值,则停止迭代,得到社交网络每个节点的状态值;将当前用户的状态值与其他用户的状态值进行比较,将具有相似状态值的用户所形成的用户集合作为当前用户的全局特征。
6.根据权利要求1所述的一种融合用户状态信息的跨社交网络用户对齐方法,其特征在于,所述将局部特征和全局特征输入到词向量模型中的神经网络模型中包括利用自然语言词向量模型将用户的局部特征和全局特征输入到神经网络模型中,采用极大似然估计的目标函数训练所述神经网络模型,将每个用户映射成一个固定长度的短向量,并构成低维向量空间;所述短向量即为所述低维特征向量。
7.根据权利要求6所述的一种融合用户状态信息的跨社交网络用户对齐方法,其特征在于,所述采用极大似然估计的目标函数表示为:其中,|V|表示社交网络中的用户数;c表示上下文窗口大小;vj表示序列中距离用户vi间隔为|i‑j|的用户;f(vi)表示用户vi到其嵌入向量zi的映射函数,即f:f(vi)=zi;σ表示激活函数; 表示用户vj的嵌入向量转置。
8.根据权利要求7所述的一种融合用户状态信息的跨社交网络用户对齐方法,其特征在于,对所述神经网络模型采用负采样方式进行训练,所述极大似然估计的目标函数表示为:
其中,N为负采样个数,每个用户v负采样概率为 其中di表示用户vi的度;
则表示用户vk按照负采样概率Pn(v)的期望。
9.根据权利要求1所述的一种融合用户状态信息的跨社交网络用户对齐方法,其特征在于,所述输出源社交网络中的用户与目标社交网络中的用户中可能存在的潜在对齐用户对包括对源社交网络中的待对齐用户迭代计算其与目标社交网络的用户之间的相似度,当所述相似度达到预设阈值,则将目标社交网络的用户作为对齐用户,并形成源社交网络的待对齐用户的用户列表。