1.一种舆情监测数据处理方法,其特征在于,包括:
获取第一用户端在历史时间段内浏览的多个历史舆情视频,按照各所述历史舆情视频的视频标签得到多个去重标签,基于帧数筛选策略获取各所述历史舆情视频对应的去重帧集合,并将去重标签一致的去重帧集合归类至同一个去重标签之下,得到去重数据库,其中,所述去重帧集合包括首帧、尾帧和中间帧;
提取舆情数据库中与所述第一用户端对应的推送舆情视频,基于所述推送舆情视频的推送标签对所述第一用户端对应的去重数据库进行遍历,获取所述去重标签与所述推送标签一致的去重帧集合作为筛选帧集合;
根据各所述筛选帧集合对应的历史舆情视频的历史视频时长,以及所述推送舆情视频的推送视频时长对多个筛选帧集合进行筛选,得到比对帧集合,根据帧数区间策略、所述比对帧集合和所述推送舆情视频得到所述推送舆情视频中的多个选中帧集合,所述选中帧集合包括选中首帧集合、选中尾帧集合和选中中间帧集合;
响应文字比对信息,根据文字比对策略对所述比对帧集合中的多个比对帧与各所述选中帧集合的选中帧进行文字对比,得到一类比对值,根据所述一类比对值和预设文字比对值得到所述推送舆情视频的文字比对结果;
响应图像比对信息,根据图像比对策略对所述比对帧集合中的多个比对帧与各所述选中帧集合中的选中帧进行图像对比,得到二类比对值,根据所述二类比对值和预设图像比对值得到所述推送舆情视频的图像比对结果,基于所述文字比对结果和/或图像比对结果对所述推送舆情视频进行删除判断处理。
2.根据权利要求1所述的方法,其特征在于,
获取第一用户端在历史时间段内浏览的多个历史舆情视频,按照各所述历史舆情视频的视频标签得到多个去重标签,基于帧数筛选策略获取各所述历史舆情视频对应的去重帧集合,并将去重标签一致的去重帧集合归类至同一个去重标签之下,得到去重数据库,包括:统计用户在历史时间段内的舆情浏览信息,获取所述舆情浏览信息中的多个历史舆情视频,按照各所述历史舆情视频的视频标签得到多个去重标签;
获取各所述历史舆情视频的历史视频时长,根据所述历史视频时长和预设视频时长的比值得到帧数调整系数,根据基准帧数和所述帧数调整系数的乘积的向上取整值得到单侧选取帧数;
基于所述历史视频时长获取相应历史舆情视频对应的视频中间时刻,以及所述视频中间时刻对应的第一中间帧,以所述第一中间帧为起点,向前和向后分别选取单侧选取帧数的视频帧作为第二中间帧;
选取各所述历史舆情视频对应的首帧、尾帧、第一中间帧和第二中间帧生成各所述历史舆情视频对应的去重帧集合,并将去重标签一致的去重帧集合归类至同一个去重标签之下,得到去重数据库。
3.根据权利要求2所述的方法,其特征在于,
根据各所述筛选帧集合对应的历史舆情视频的历史视频时长,以及所述推送舆情视频的推送视频时长对多个筛选帧集合进行筛选,得到比对帧集合,包括:根据所述推送舆情视频的推送视频时长和各所述筛选帧集合对应的历史舆情视频的历史视频时长,得到所述推送舆情视频和各所述筛选帧集合对应的视频时长差值;
获取所述视频时长差值在预设时长差值区间内的筛选帧集合作为比对帧集合。
4.根据权利要求3所述的方法,其特征在于,
根据帧数区间策略、所述比对帧集合和所述推送舆情视频得到所述推送舆情视频中的多个选中帧集合,所述选中帧集合包括选中首帧集合、选中尾帧集合和选中中间帧集合,包括:获取所述比对帧集合对应的比对视频时长,根据所述比对视频时长和所述推送视频时长的差值的绝对值得到偏移视频时长,根据所述偏移视频时长得到选中首帧数、选中尾帧数和选中单侧帧数;
获取所述推送舆情视频的开始时刻对应的开始帧,以所述开始帧为起点,向后依次获取选中首帧数的视频帧生成选中首帧集合,获取所述推送舆情视频的结束时刻对应的结束帧,以所述结束帧为起点,向前依次获取选中尾帧数的视频帧生成选中尾帧集合;
基于所述推送视频时长获取所述推送视频帧对应的推送中间时刻,获取所述推送中间时刻对应的推送中间帧,以所述推送中间帧为起点,向前和向后分别获取选中单侧帧数的视频帧生成选中中间帧集合。
5.根据权利要求4所述的方法,其特征在于,
根据所述偏移视频时长得到选中首帧数、选中尾帧数和选中单侧帧数,包括:
若所述偏移视频时长等于0,则获取预设帧数作为选中首帧数和选中尾帧数,对预设帧数的二分之一和所述单侧选取帧数求和得到选中单侧帧数;
若所述偏移视频时长大于0,则根据单位时长帧数和所述偏移视频时长的乘积的向上取整值得到偏移帧数,将所述偏移帧数和预设帧数的和作为选中首帧数和选中尾帧数,根据所述偏移帧数的二分之一得到单侧偏移帧数,对所述单侧选取帧数、预设帧数的二分之一和所述单侧偏移帧数求和得到选中单侧帧数。
6.根据权利要求5所述的方法,其特征在于,在响应文字比对信息之前,还包括:
分别获取比对首帧和选中首帧集合、比对中间帧和选中中间帧集合以及比对尾帧和选中尾帧集合作为三组比对组,提取各所述比对组中各比对帧中的第一提取文字,以及各所述选中帧集合中各所述选中帧中的第二提取文字;
调取非比对文字表,对存在于所述非比对文字表中的第一提取文字和第二提取文字进行剔除,得到各比对帧对应的第一比对文字和各选中帧集合中各选中帧对应的第二比对文字;
若所述第一比对文字的文字数量大于0、且选中帧集合中存在选中帧对应的第二比对文字的文字数量大于0,则生成文字比对信息;
若所述第一比对文字的文字数量等于0和/或选中帧集合中的选中帧对应的第二比对文字的文字数量均等于0,则生成图像比对信息。
7.根据权利要求5所述的方法,其特征在于,
响应文字比对信息,根据文字比对策略对所述比对帧集合中的多个比对帧与各所述选中帧集合的选中帧进行文字对比,得到一类比对值,根据所述一类比对值和预设文字比对值得到所述推送舆情视频的文字比对结果,包括:响应文字比对信息,获取进行文字比对的比对组中的比对帧作为第一比对帧,以及进行文字比对的比对组中的选中帧集合作为第一选中帧集合,按照时间顺序对各所述第一比对帧进行排列,得到第一比对帧序列;
依次获取所述第一比对帧序列中的第一比对帧作为第一目标帧,统计所述第一目标帧的第一比对文字数量,以及所述第一选中帧集合中各第一选中帧的第二比对文字数量;
获取第二比对文字数量和第一比对文字数量一致的第一选中帧作为第一筛选帧,对所述第一目标帧的第一比对文字进行分字处理得到第一比对文字序列,对所述第一筛选帧的第二比对文字进行分字处理得到第二比对文字序列;
依次对所述第一比对文字序列和所述第二比对文字序列中的文字进行一一比对,得到相同文字数量,根据所述相同文字数量和所述第一比对文字数量的比值,得到所述第一目标帧和各所述第一筛选帧的一类子比对值,获取最大的一类子比对值作为所述第一目标帧对应的一类比对值;
统计所有第一目标帧对应的一类比对值,当所有一类比对值均大于预设文字比对值时,将相应的比对组作为一类相似比对组。
8.根据权利要求7所述的方法,其特征在于,
响应图像比对信息,根据图像比对策略对所述比对帧集合中的多个比对帧与各所述选中帧集合中的选中帧进行图像对比,得到二类比对值,根据所述二类比对值和预设图像比对值得到所述推送舆情视频的图像比对结果,基于所述文字比对结果和/或图像比对结果对所述推送舆情视频进行删除判断处理,包括:响应图像比对信息,获取进行图像比对的比对组中的比对帧作为第二比对帧,以及进行图像比对的比对组中的选中帧集合作为第二选中帧集合,按照时间顺序对各所述第二比对帧进行排列,得到第二比对帧序列;
依次获取所述第二比对帧序列中的第二比对帧作为第二目标帧,获取所述第二目标帧的第一亮度值,以及所述第二选中帧集合中各第二选中帧的第二亮度值,根据所述第一亮度值和所述第二亮度值的差值的绝对值得到亮度差值;
获取所述第二选中帧集合中亮度差值小于预设亮度差值的第二选中帧作为第二筛选帧,按照区域比对策略对所述第二目标帧和各所述第二筛选帧进行区域比对,得到所述第二目标帧和各所述第二筛选帧对应的二类子比对值,获取最大的二类子比对值作为第二目标帧对应的二类比对值;
统计所有第二目标帧对应的二类比对值,当所有二类比对值均大于预设图像比对值时,将相应的比对组作为二类相似比对组,当所述推送舆情视频中的所有比对组均为一类相似比对组和/或二类相似比对组时,将所述推送舆情视频进行删除。
9.根据权利要求8所述的方法,其特征在于,
按照区域比对策略对所述第二目标帧和各所述第二筛选帧进行区域比对,得到所述第二目标帧和各所述第二筛选帧对应的二类子比对值,获取最大的二类子比对值作为第二目标帧对应的二类比对值,包括:按照第一方向对所述第二目标帧和各所述第二筛选帧进行一次区域划分,得到所述第二目标帧和各所述第二筛选帧对应的上部比对区域和下部比对区域;
统计所有第二筛选帧的筛选帧数量,根据所述筛选帧数量和预设筛选帧数量的比值得到数量调整系数,根据基准区域数量和所述数量调整系数的乘积的向上取整值得到比对区域数量;
基于所述比对区域数量按照所述第一方向对所述第二目标帧和各所述第二筛选帧的上部比对区域进行二次区域划分,得到所述第二目标帧和各所述第二筛选帧对应的子比对区域;
按照第一方向依次选取所述第二目标帧和各所述第二筛选帧对应的子比对区域进行像素值比对,得到所述第二目标帧和各所述第二筛选帧中相应的子比对区域的像素相似值;
若所述像素相似值小于预设像素相似值,则删除相应的第二筛选帧,重复上述删除步骤,直至所述子比对区域对比完毕,将剩余的所述第二筛选帧作为第三筛选帧;
若所述第三筛选帧数量为0,调取预设二类比对值作为所述二类比对值;
若所述第三筛选帧数量大于0,则统计各所述第三筛选帧中所有子比对区域对应的像素相似值得到总像素相似值,根据所述总像素相似值的平均值得到所述第三筛选帧对应的二类子比对值,获取最大的二类子比对值作为第二目标帧对应的二类比对值。
10.一种舆情监测数据处理系统,其特征在于,包括:
数据库模块,用于获取第一用户端在历史时间段内浏览的多个历史舆情视频,按照各所述历史舆情视频的视频标签得到多个去重标签,基于帧数筛选策略获取各所述历史舆情视频对应的去重帧集合,并将去重标签一致的去重帧集合归类至同一个去重标签之下,得到去重数据库,其中,所述去重帧集合包括首帧、尾帧和中间帧;
集合模块,用于提取舆情数据库中与所述第一用户端对应的推送舆情视频,基于所述推送舆情视频的推送标签对所述第一用户端对应的去重数据库进行遍历,获取所述去重标签与所述推送标签一致的去重帧集合作为筛选帧集合;
比对模块,用于根据各所述筛选帧集合对应的历史舆情视频的历史视频时长,以及所述推送舆情视频的推送视频时长对多个筛选帧集合进行筛选,得到比对帧集合,根据帧数区间策略、所述比对帧集合和所述推送舆情视频得到所述推送舆情视频中的多个选中帧集合,所述选中帧集合包括选中首帧集合、选中尾帧集合和选中中间帧集合;
文字模块,用于响应文字比对信息,根据文字比对策略对所述比对帧集合中的多个比对帧与各所述选中帧集合的选中帧进行文字对比,得到一类比对值,根据所述一类比对值和预设文字比对值得到所述推送舆情视频的文字比对结果;
图像模块,用于响应图像比对信息,根据图像比对策略对所述比对帧集合中的多个比对帧与各所述选中帧集合中的选中帧进行图像对比,得到二类比对值,根据所述二类比对值和预设图像比对值得到所述推送舆情视频的图像比对结果,基于所述文字比对结果和/或图像比对结果对所述推送舆情视频进行删除判断处理。