1.基于三部图模型的微博热点话题溯源方法,其特征在于,包括:S1、利用网络爬虫或者各种社交软件提供的应用程序编程接口API对数据进行获取;
S2、对单条微博消息进行传播路径模型还原;
S3、以单条微博消息的传播路径还原为基础,建立“消息-路径-用户”话题三部图;
S4、对根据话题三部图计算得到的消息、路径和用户得分序列排序,将排名靠前的N个作为热点话题源点序列。
2.根据权利要求1所述的基于三部图模型的微博热点话题溯源方法,其特征在于,所述利用网络爬虫或者各种社交软件提供的应用程序编程接口API对数据进行获取包括:S11、数据获取,通过新浪微博网页抓取热点话题下参与度较高的多条消息以及消息的参与用户,用户个人信息下的一级转发数目,评论数目,用户粉丝数目以及用户关注数目;
S12、简单的数据清洗,数据清洗包括删除重复数据、整理无效节点等。
3.根据权利要求1所述的基于三部图模型的微博热点话题溯源方法,其特征在于,所述对获取单条微博消息传播路径模型还原包括:S21、根据获取的消息的传播路径构建传播树模型,考虑到评论用户只是受影响用户而不具备二次传播能力,所以将根节点至每一个转发叶子节点的传播路线看作是一条消息传播路径,则可以得到消息路径集合为S22、获得用户消息传播带动力,用户的消息传播带动力定义为:其中,vk,mi表示第i个消息中的用户节点vk,pt表示第t条路径,Ω表示消息M的传播路径数量,drive(vk,mi)是用户的消息传播带动力, 表示用户vk下的转发数,表示用户vk下的评论数。
4.根据权利要求1所述的基于三部图模型的微博热点话题溯源方法,其特征在于,所述建立“消息-路径-用户”话题三部图包括:S31、构建“消息-路径-用户”话题三部图模型,根据同一用户可能会对不同消息进行转发与评论,使多条消息传播具有重叠,从而构成话题全网络,以此为基础构建话题三部图,具体表示包括:G=(M∪P∪V,A∪B);
S32、同一个用户可能会同时参与此热点话题下不同消息,定义用户话题传播带动力为:S33、引进超文本话题搜索HITS排名思想,使用循环迭代打分机制对话题三部图中关键元素进行挖掘;
其中,G表示话题三步图模型,M为消息集合,P为消息传播路径集合,V为参与用户集合,A为消息-路径之间的权值矩阵,B为路径-用户之间的权值矩阵,drive(vk,mi)为用户的消息传播带动力,vk,mi表示第i个消息中的用户节点vk。
5.根据权利要求4所述的基于三部图模型的微博热点话题溯源方法,其特征在于,步骤S33中使用循环迭代打分机制对话题三部图中关键元素进行挖掘包括:S331、计算消息初始评分向量X(0)、路径初始评分向量Y(0)和用户初始评分向量W(0);
S332、计算消息-路径之间的权值矩阵和路径-用户之间的权值矩阵;
S333、使用循环迭代打分机制对三部图中的消息集合、路径集合、用户集合的分值向量进行更新,其中循环迭代打分机制包括正向打分过程和反向打分过程。
6.根据权利要求5所述的基于三部图模型的微博热点话题溯源方法,其特征在于,步骤S331中消息初始评分向量X(0)、路径初始评分向量Y(0)和用户初始评分向量W(0)的计算包括:其中,αi表示的是消息传播的广度,即消息Mi所对应的有效路径数量;βj表示的是路径pj的对应的节点vk的数目,γk表示的是用户节点vk的话题传播带动力,上标T表示转置矩阵。
7.根据权利要求4所述的基于三部图模型的微博热点话题溯源方法,其特征在于,所述消息-路径之间的权值矩阵表示包括:消息-路径权值矩阵为:
路径-消息权值矩阵为:
其中,如果消息M中有传播路径P,则ai,j=1,否则,ai,j=0;同时,可以把AMP看成是消息节点M和路径节点P之间的转移矩阵,βj表示的是路径pj的对应的节点vk的数目,上标T表示转置矩阵。
8.根据权利要求4所述的基于三部图模型的微博热点话题溯源方法,其特征在于,所述路径-用户之间的权值矩阵表示包括:路径-用户权值矩阵为:
用户-路径权值矩阵为:
其中,若传播路径Pj中包含用户节点vk,则bk,j=1,否则bk,j=0, 是用户初始分值向量W(0)的第k个元素, 是路径初始分数Y(0)的第j个元素。
9.根据权利要求4所述的基于三部图模型的微博热点话题溯源方法,其特征在于,所述正向打分过程包括:Y(n+1)=μAMPX(n)+(1-μ)Y(0);
W(n+1)=μBPVY(n+1)+(1-μ)W(0);
其中,μ为可调比例参数,Y(n+1)表示第n+1次循环的路径评分向量,W(n+1)表示第n+1次循环的用户评分向量,AMP表示消息-路径权值矩阵,BPV表示路径-用户权值矩阵。
10.根据权利要求4所述的基于三部图模型的微博热点话题溯源方法,其特征在于,所述反向打分过程包括:Y(n+1)=μBVPW(n+1)+(1-μ)Y(0);
(n+1) (n+1) (0)
X =μAPMY +(1-μ)X ;
其中,μ为可调比例参数,Y(n+1)表示第n+1次循环的路径评分向量,X(n+1)表示第n+1次循环的消息评分向量,BVP表示用户-路径权值矩阵,APM表示路径-消息权值矩阵。