1.一种网络舆情地理位置实时监控系统,其特征在于,包括:数据采集模块、数据处理模块、动态展示模块、分析报告模块,数据采集模块预先将用户注册信息存储到本地,获取微博、博客、论坛的热点关键词,对关键词进行相似度检测并去重,建立关键词列表,依次将每个关键词对应的网页源码保存到本地;数据处理模块根据网站结构表中对应的该网站的各个标识使用字符串首尾边界切割技术提取其中的用户名、话题内容、IP地址、时间信息存入数据库中,通过将地理位置转换为经纬度坐标,并按照时间顺序排序,按照用户设定的时间间隔分批完成动态演示数据集的建立,字符串首尾边界切割技术具体为,查找所要提取目标字符串首和尾的唯一字符串标识,使用字符串切割功能,将网页源码中的目标字符串提取出来,从搜索的网页源码中提取时间和地理位置信息,根据地理位置建立与经纬度坐标的映射,按照关键词传播时间的先后顺序对所获取的内容排序,按预定时间间隔对排序后的内容按照定长时间段分批;动态展示模块读取分批数据,按批次载入地理信息系统,进行地理坐标标识,根据经纬度坐标绘制地标,以实现信息传播动态演示,并绘制热点关键词随时间变化的曲线,在x-y坐标系中,以x轴属性为时间,y轴属性为网民人数,省市之间的曲线用颜色区分,一批数据中的同一省市做一个点,随着数据批次的增加,将同一省市的点动态连接起来,产生动画效果,完成网民地域分布曲线的动态变化;分析报告模块存储演示结果并对网民地域分布人数做定量分析。
2.根据权利要求1所述的网络舆情地理位置实时监控系统,其特征在于,对于不提供IP地址的网站,预处理模块搜索网站所有用户的个人信息主页,根据字符串首尾边界切割提取用户名和注册地点存入用户注册信息表。
3.根据权利要求1所述的网络舆情地理位置实时监控系统,其特征在于,数据采集模块中话题信息采集模块使用微博、博客或论坛提供的搜索功能,将搜索获得的所有页面的源码保存在本地,提取时间地点模块提取源码中的用户名、热点词相关内容、IP地址、时间信息存入数据库中。
4.根据权利要求1所述的网络舆情地理位置实时监控系统,其特征在于,如果有IP地址,则查找IP地址和地理位置信息映射表,将IP地址转换为城市名称,保证待处理数据集中仅含有时间和城市名称两个属性。
5.一种网络舆情地理位置实时监控方法,其特征在于,数据采集模块预先将用户注册信息存储到本地,获取微博、博客、论坛的热点关键词,对关键词进行相似度检测并去重,建立关键词列表,依次将每个关键词对应的网页源码保存到本地;数据处理模块根据网站结构表中对应的该网站的各个标识使用字符串首尾边界切割技术提取其中的用户名、话题内容、IP地址、时间信息存入数据库中,通过将地理位置转换为经纬度坐标,并按照时间顺序排序,按照用户设定的时间间隔分批完成动态演示数据集的建立,字符串首尾边界切割技术具体为,查找所要提取目标字符串首和尾的唯一字符串标识,使用字符串切割功能,将网页源码中的目标字符串提取出来,采用字符串首尾边界切割从网页源码中提取时间和地理位置信息,根据地理位置建立与经纬度坐标的映射,按照关键词传播时间的先后顺序对所获取的内容排序,按用户设定的时间间隔对排序后的内容按照定长时间段分批;动态展示模块读取分批数据,按批依次载入地理信息系统,进行地理坐标标识,根据经纬度坐标绘制地标,以实现信息传播动态演示,并绘制关键词随时间变化的曲线,在x-y坐标系中,以x轴属性为时间,y轴属性为网民人数,省市之间的曲线用颜色区分,一批数据中的同一省市做一个点,随着数据批次的增加,将同一省市的点动态连接起来,产生动画效果,完成网民地域分布曲线的动态变化;分析报告模块存储演示结果并对网民地域分布人数做定量分析。
6.根据权利要求5所述的方法,其特征在于,对于不提供IP地址的网站,预处理模块搜索网站所有用户的个人信息主页,采用字符串首尾边界切割方法提取用户名和注册地点存入用户注册信息表;如果有IP地址,则查找IP地址和地理位置信息映射表,将IP地址转换为城市名称,保证待处理数据集中仅含有时间和城市名称两个属性。
7.根据权利要求5所述的方法,其特征在于,数据采集模块中话题信息采集模块使用微博、博客或论坛提供的搜索功能,将搜索的所有页面的纯文本信息根据目标信息标识表中对应的该网站的各个标识,提取其中的用户名、热点词相关内容、IP地址、时间存入数据库中。
8.根据权利要求5所述的方法,其特征在于,采用Google Earth进行数据展示时,将分批数据按照批次写成若干kml演示文件,使用OpenKmlFile方法依次读入每一个kml演示文件,建立定时器读取文件,完成信息传播动态演示。