1.一种从文档集中快速提取有用数据的方法,其特征在于:包括以下步骤:
步骤1:使用中文分词工具,对文档集中的每个文档进行包括分词、词性标注及分词筛选在内的预处理,得到每个文档中的潜在检索词和该文档中的每个段落中的潜在检索词;
步骤2:对所述文档集中的每个文档中的每个段落中的潜在检索词进行词频统计,得到每个段落中每个潜在检索词的词频统计结果,基于段落的词频统计结果得到相应的文档整体的潜在检索词的词频统计结果;
步骤3:采用非结构化数据库技术存储经步骤1和步骤2处理后的文档集,对所述文档集中的每个文档建立一个存储集,每个存储集的存储内容包括:{文档的名称、文档的内容、文档中每个段落的潜在检索词及每个所述潜在检索词的词频统计结果、文档的潜在检索词及每个所述潜在检索词的词频统计结果、存储时间},使所述文档集中所有文档转化为非结构化数据库中的一个有序集合;
步骤4:输入检索词,在具有有序集合的非结构化数据库中实施检索;
步骤5:根据检索词与潜在检索词的匹配,以及潜在检索词的词频统计结果,输出检索结果。
2.如权利要求1所述的从文档集中快速提取有用数据的方法,其特征在于:所述潜在检索词包括名词、动词和数量词。
3.如权利要求1所述的从文档集中快速提取有用数据的方法,其特征在于:步骤1中所述的分词筛选为剔除经分词和词性标注后的词中的非潜在检索词,所述非潜在检索词包括连词、副词和语气词。
4.如权利要求1所述的从文档集中快速提取有用数据的方法,其特征在于:步骤5中,检索结果的输出内容包括至少一个结果集,每一所述结果集的内容包括:{文档的名称、存储时间、文档中具有检索词的每个段落的内容}。
5.如权利要求4所述的从文档集中快速提取有用数据的方法,其特征在于:根据文档的潜在检索词的词频统计结果降序排列所述结果集。
6.如权利要求4所述的从文档集中快速提取有用数据的方法,其特征在于:每一所述结果集中,根据文档中的每个段落的段落顺序排列具有检索词的段落。
7.如权利要求4所述的从文档集中快速提取有用数据的方法,其特征在于:所述结果集的内容还包括:{存储位置、具有检索词的每个段落的检索词的数量}。
8.如权利要求1所述的从文档集中快速提取有用数据的方法,其特征在于:所述文档集为地质灾害大文档集。
9.如权利要求1所述的从文档集中快速提取有用数据的方法,其特征在于:所述中文分词工具为分词词典,步骤1中分词时采用的分词算法为结巴分词、Word分词或盘古分词算法。
10.如权利要求1所述的从文档集中快速提取有用数据的方法,其特征在于:步骤2中进行词频统计的方法为TF-IDF方法,所述非结构化数据库为MongoDB、HBase或Redis数据库。