知嘟嘟-专利交易平台_专利购买_专利出售-买专利,上嘟嘟

欢迎来到知嘟嘟！联系电话：13336804447 卖家免费入驻，海量在线求购！卖家免费入驻，海量在线求购！

嘟嘟会员

帮助中心网站地图

查出售查高校查求购查年费

我要发布

首页转移热力图Hot 专利交易委托购买高校专区科技服务专利求购年费查询行业资讯

联系电话：13336804447

知嘟嘟经纪人

一种从文档集中快速提取有用数据的方法

￥38400

专利号： 2017109858401

申请人：中国地质大学（武汉）

专利类型：发明专利

专利状态：已下证

专利领域：计算；推算；计数

更新日期：2024-01-05

缴费截止日期：暂无

价格&联系人

年费信息

委托购买

专利简介

专利详情

委托购买说明

需准备材料

常见问题

摘要:

权利要求书:

1.一种从文档集中快速提取有用数据的方法，其特征在于：包括以下步骤：

步骤1：使用中文分词工具，对文档集中的每个文档进行包括分词、词性标注及分词筛选在内的预处理，得到每个文档中的潜在检索词和该文档中的每个段落中的潜在检索词；

步骤2：对所述文档集中的每个文档中的每个段落中的潜在检索词进行词频统计，得到每个段落中每个潜在检索词的词频统计结果，基于段落的词频统计结果得到相应的文档整体的潜在检索词的词频统计结果；

步骤3：采用非结构化数据库技术存储经步骤1和步骤2处理后的文档集，对所述文档集中的每个文档建立一个存储集，每个存储集的存储内容包括：{文档的名称、文档的内容、文档中每个段落的潜在检索词及每个所述潜在检索词的词频统计结果、文档的潜在检索词及每个所述潜在检索词的词频统计结果、存储时间}，使所述文档集中所有文档转化为非结构化数据库中的一个有序集合；

步骤4：输入检索词，在具有有序集合的非结构化数据库中实施检索；

步骤5：根据检索词与潜在检索词的匹配，以及潜在检索词的词频统计结果，输出检索结果。

2.如权利要求1所述的从文档集中快速提取有用数据的方法，其特征在于：所述潜在检索词包括名词、动词和数量词。

3.如权利要求1所述的从文档集中快速提取有用数据的方法，其特征在于：步骤1中所述的分词筛选为剔除经分词和词性标注后的词中的非潜在检索词，所述非潜在检索词包括连词、副词和语气词。

4.如权利要求1所述的从文档集中快速提取有用数据的方法，其特征在于：步骤5中，检索结果的输出内容包括至少一个结果集，每一所述结果集的内容包括：{文档的名称、存储时间、文档中具有检索词的每个段落的内容}。

5.如权利要求4所述的从文档集中快速提取有用数据的方法，其特征在于：根据文档的潜在检索词的词频统计结果降序排列所述结果集。

6.如权利要求4所述的从文档集中快速提取有用数据的方法，其特征在于：每一所述结果集中，根据文档中的每个段落的段落顺序排列具有检索词的段落。

7.如权利要求4所述的从文档集中快速提取有用数据的方法，其特征在于：所述结果集的内容还包括：{存储位置、具有检索词的每个段落的检索词的数量}。

8.如权利要求1所述的从文档集中快速提取有用数据的方法，其特征在于：所述文档集为地质灾害大文档集。

9.如权利要求1所述的从文档集中快速提取有用数据的方法，其特征在于：所述中文分词工具为分词词典，步骤1中分词时采用的分词算法为结巴分词、Word分词或盘古分词算法。

10.如权利要求1所述的从文档集中快速提取有用数据的方法，其特征在于：步骤2中进行词频统计的方法为TF-IDF方法，所述非结构化数据库为MongoDB、HBase或Redis数据库。