1.一种舆情大数据处理系统,其特征在于,至少包括处理单元(100),处理单元(100)配置为:
基于分类算法对历史数据进行分类训练以获取舆情网络传输结构中的中心节点和边缘节点;
基于多元回归的方式预测中心节点与边缘节点彼此转换的第一概率;
基于第一概率构建关于中心节点与边缘节点彼此转换的第一集合,并随机选取第一集合内的至少一个节点作为采集数据的起始节点。
2.根据权利要求1所述的舆情大数据处理系统,其特征在于,处理单元(100)配置为:基于等概率的方式随机选取第一集合内的节点作为起始节点;
基于起始节点按照其包含的节点的层次深浅进行逐层搜索。
3.根据权利要求1或2任一所述的舆情大数据处理系统,其特征在于,在处理单元(100)基于起始节点按照其包含的节点的层次深浅进行逐层搜索的情况下,处理单元(100)配置为按照起始节点及其包含的节点能够构建闭合回路形成节点路径的方式进行搜索。
4.根据前述权利要求任一所述的舆情大数据处理系统,其特征在于,处理单元(100)配置为基于起始节点搜索第一集合内能够构成闭合回路的多个节点路径中彼此重合比例大于第一阈值的至少两个节点路径。
5.根据前述权利要求任一所述的舆情大数据处理系统,其特征在于,处理器(100)配置为:
在采集数据超过第一时间后检测第一集合内的节点是否发生转换;
剔除未发生变化的节点生成第二集合;
随机选取第二集合内的至少一个节点作为采集数据的起始节点。
6.根据前述权利要求任一所述的舆情大数据处理系统,其特征在于,处理单元(100)配置为:
预测中心节点与边缘节点彼此转换的多个节点之间连接断开的第二概率;
选择第二概率最大的至少一对节点作为采集数据的起始节点。
7.根据前述权利要求任一所述的舆情大数据处理系统,其特征在于,在第一集合/第二集合内节点的个数小于第二阈值的情况下,处理单元(100)配置为基于等概率的方式随机选取第一集合/第二集合内的所有节点。
8.根据前述权利要求任一所述的舆情大数据处理系统,其特征在于,在第一集合/第二集合内节点的个数大于第二阈值的情况下,处理单元(100)配置为:随机选取至少一个节点进行采集并解析其包含的节点;
每隔第二时间选取新的节点,并优先基于该新的节点进行搜索。
9.根据前述权利要求任一所述的舆情大数据处理系统,其特征在于,处理单元(100)配置为每间隔第三时间对已选取的节点的优先权进行评估,其中,处理单元(100)配置为将处理时间超过第三时间的已选取的节点的处理优先级调至最低,并基于间隔的第二时间的次数的累积增加其优先级。
10.一种舆情大数据处理方法,其特征在于,所述方法包括:基于分类算法对历史数据进行分类训练以获取舆情网络传输结构中的中心节点和边缘节点;
基于多元回归的方式预测中心节点与边缘节点彼此转换的第一概率;
基于第一概率构建关于中心节点与边缘节点彼此转换的第一集合,并随机选取第一集合内的至少一个节点作为采集数据的起始节点。