1.一种网络爱国舆情事件跟踪、预测和疏导方法,其特征在于,所述方法包括以下步骤:步骤1,建立全网数据采集系统,使用网络爬虫获取新闻网站和社交媒体内容,过程如下:
1.1使用基于Hadoop的分布式网络爬虫系统,分布于不同服务器上的分系统分别爬取不同的网站,将爬取的数据聚合在一起;
1.2爬取过程中,将目标网站分为两大类:新闻网站和社交网络,对新闻媒体爬取的内容包括:发文时间、标题、发文内容、浏览量、评论数和评论内容;对社交网络爬取内容包括:发布时间、发布内容、点赞数、评论数、评论内容、用户信息、用户之间的社交关系网络;
1.3建立基于Hadoop和MySQL的关系数据库,将爬取的数据结构化并存入数据库;
步骤2,针对在步骤1中爬取的数据中的文本,使用预先训练的BERT模型,将文本进行分类并判断是否和爱国主义相关,计算爱国主义事件相关话题的流行度;
步骤3,识别突发热点事件,具体为:使用基于局部离群因子的异常检测算法LOF方法来检测相关微博数在时间序列上的突然增长,并向用户发出通知,通过比较一个地区与其相邻地区的话题流行度的区别来识别突发热点事件的起源及影响范围;
步骤4,网络爱国舆情事件跟踪,具体为:当检测到与爱国主义相关的突发热点事件,系统持续收集网络上的各种网络行为,跟踪并记录从话题的爆发然后达到顶峰最后衰退的整个过程,统计过程中的各种数据,包括参与互动的用户数量,用户的年龄段、用户的地域分布、用户对国家的支持度;
步骤5,网络爱国舆情事件流行度的预测,使用的是结合长短期记忆网络LSTM和卷积神经网络CNN的深度学习方法,过程如下:
5.1可以影响网络爱国舆情事件流行度发展的属性被分为两类,一种是和时间相关的动态属性,使用对时间敏感的长短期记忆网络LSTM,另一种是和时间无关的静态属性,使用卷积神经网络CNN处理;
5.2动态属性包括流行度随时间积累的属性Vp(t)和用户属性和网络属性,其中t时刻用户属性向量Vu(t)如下式所示T
Vu(t)=[nv,nf,na]
其中nv是参与的意见领袖的数量,nf表示所有意见领袖的关注者的数量,na表示参与讨论的用户平时活跃程度,网络属性指的是参与讨论话题的用户在网络上的拓扑结构信息,使用Node2vec算法将网络拓扑结构信息用矩阵Vn(t)来表示,将从0到对应时刻的用户属性Vu(t)和网络属性Vn(t)结合并输入长短期记忆网络LSTM中,经过学习得到该时刻的特性向量Vun(t),然后将Vun(t)和Vp(t)结合作为动态属性向量VD(t),如下式所示TVD(t)=[Vun(t),Vp(t)]
5.3静态属性指的是话题本身的属性,步骤2中爱国主义事件相关话题的话题属性包括事件类型、涉及的群体和具体内容,将话题属性信息输入到经过预训练的卷积神经网络CNN中,提取出固定长度的静态属性向量VS(t);
5.4将动态属性向量VD(t)和静态属性向量VS(t)连接起来,将向量归一化,输入全连接神经网络,使用随机梯度和反向传播来训练深度神经网络,输出未来爱国主义事件相关话题的流行度趋势预测;
步骤6,网络爱国舆情事件的疏导,步骤如下:
6.1将系统中存档的和正在发生的网络爱国舆情事件相关或者相似的历史事件数据提取出来,包括官方或者事件主体的应对行为,将历史事件的数据和相应的应对行为按照步骤5中的预测方法训练深度神经网络;
6.2通过将正在发生的网络爱国舆情事件输入训练好的神经网络,系统推荐数个合适的应对方案供使用者参考,并给出使用相应方案后网络爱国舆情事件流行度的发展趋势。