1.一种基于大数据的信息数据存储整合系统,其特征在于,所述整合系统包括文档信息获取模块、文档选取模块和拆分合并处理模块,所述文档信息获取模块用于获取上一个周期内待处理文件夹中各个待合并文档的文档信息,所述文档信息包括文档名称和最后修改时间,所述文档选取模块从待合并文档中选出疑似相近文档,再从疑似相近文档中筛选出相近文档,所述拆分合并处理模块对相近文档进行拆分合并处理;
所述信息数据存储整合系统的整合方法包括以下步骤:获取上一个周期内待处理文件夹中各个待合并文档的文档信息,所述文档信息包括文档名称和最后修改时间,
从待合并文档中选出疑似相近文档,再从疑似相近文档中筛选出相近文档,对相近文档进行拆分合并处理;
所述从待合并文档中筛选出疑似相近文档包括:获取各个待合并文档的文档名称的名称长度,将各个文档名称按照名称长度从短到长的顺序依次排序,并设该排序为第一排序,选取第一排序中第一个文档名称作为对比文档名称,对比文档名称所对应的文档为对比文档;
比较对比文档名称与第一排序中其他文档名称的相似度,如果存在某个其他文档名称与对比文档名称的名称相似度大于等于名称相似度阈值,那么该其他文档名称所对应的文档为对比文档的相关文档,如果该对比文档的相关文档的文档数目与所有待合并文档的文档数目之比大于等于第一比值阈值,那么对比文档和该对比文档的相关文档均为疑似相近文档;
如果该对比文档的疑似相关文档的文档数目与所有待合并文档的文档数目之比小于第一比值阈值,按照第一排序的顺序选取下一个文档的名称作为对比文档名称;
所述从疑似相近文档中筛选出相近文档包括:从各个疑似相近文档的文档名称任意选取三个名称长度不一样的文档名称分别为第一文档名称、第二文档名称和第三文档名称,比较这三个文档名称,所述比较这三个文档名称包括:
从第一文档名称和第二文档名称中提取候选文档名称,其中,候选文档名称为第一文档名称和第二文档名称中的连续相同的最大部分,如果候选文档名称长度与第一文档名称长度之比大于等于第二比值阈值,那么该候选文档名称为目标文档名称,将各个疑似相近文档的文档名称与目标文档名称进行比较,如果某个疑似相近文档的文档名称中包含目标文档名称,那么该疑似相近文档为目标文档名称的相近文档;
否则,重新在各个疑似相近文档的文档名称任意选取三个名称长度不一样的文档名称,比较这三个文档名称。