1.一种智能问答知识库的建立方法,其特征在于,包括:
提供领域知识数据库,所述领域知识数据库包括多个预置知识,所述预置知识包括:一个标准问以及一个或多个扩展问;
接收初始请求信息;
将所述初始请求信息与所述领域知识数据库中的预置知识进行语义相似度计算,并判断语义相似度计算结果的最大值是否大于相似度阈值,当相似度计算结果的最大值大于相似度阈值时,将该初始请求信息以及相似度计算结果的最大值对应的预置知识中的标准问以及扩展问存入智能问答知识库;
当相似度计算结果的最大值小于相似度阈值时,继续下面步骤:
提供抽象语义数据库,所述抽象语义数据库包括多个抽象语义表达式,所述抽象语义表达式包括缺失语义成分;
根据所述抽象语义数据库对所述初始请求信息进行抽象语义推荐处理,当获得与所述初始请求信息对应的一个或多个抽象语义表达式时,从所述初始请求信息中提取与一个或多个抽象语义表达式的缺失语义成分对应的内容,并将提取的内容填充到对应的缺失语义成分中以得到与所述初始请求信息对应的一个或多个具体语义表达式,将该初始请求信息以及所述具体语义表达式存入智能问答知识库。
2.如权利要求1所述的建立方法,其特征在于,所述语义相似度计算采用以下一种或多种方式的结合:基于向量空间模型的计算方法、基于隐形语义索引模型的计算方法、基于属性论的语义相似度计算方法和基于汉明距离的语义相似度计算方法。
3.如权利要求1所述的建立方法,其特征在于,分别计算所述初始请求信息与所述标准问的语义相似度以及所述初始请求信息与每个所述扩展问的语义相似度,并将计算结果中的最高值作为所述初始请求信息与该预置知识的语义相似度结果。
4.如权利要求1所述的建立方法,其特征在于,所述相似度阈值大于或等于0.7且小于或等于1.0。
5.如权利要求1所述的建立方法,其特征在于,在进行相似度计算之前还包括:对所述初始请求信息进行文本预处理。
6.如权利要求1所述的建立方法,其特征在于,还包括:当无法获得与所述初始请求信息对应的抽象语义表达式时,通过人工方式在所述智能问答知识库中添加与所述初始请求信息对应的扩展问。
7.如权利要求1所述的建立方法,其特征在于,还包括:将所述初始请求信息存入智能问答知识库的同时,提供与所述初始请求信息对应的答案,并将该答案一并存入智能问答知识库。
8.如权利要求1所述的建立方法,其特征在于,还包括:当停止接收初始请求信息之后,从领域知识数据库中至少提取未存入智能问答知识库的部分数目的预置知识,并将提取的预置知识存入智能问答知识库,所述预置知识还包括答案。
9.如权利要求1所述的建立方法,其特征在于,所述抽象语义推荐处理包括:对所述初始请求信息进行分词处理,得到若干单独词;
将每个单独词识别为语义规则词或非语义规则词;
分别对每个非语义规则词进行词性标注处理,得到每个非语义规则词的词性信息;
分别对每个语义规则词进行词类判断处理,得到每个语义规则词的词类信息;
对抽象语义数据库进行搜索处理,得到与所述初始请求信息相关的抽象语义候选集,所述抽象语义候选集包括多个抽象语义表达式;
根据所述词性信息和词类信息对抽象语义候选集中的抽象语义表达式进行匹配处理,得到与所述初始请求信息匹配的抽象语义表达式。
10.如权利要求1所述的建立方法,其特征在于,所述抽象语义推荐处理包括:对所述初始请求信息进行分词处理,得到若干单独词;
分别对每个单独词进行词性标注处理,得到每个单独词的词性信息;
分别对每个单独词进行词类判断处理,得到每个单独词的词类信息;
对抽象语义数据库进行搜索处理,得到与所述初始请求信息相关的抽象语义候选集,所述抽象语义候选集包括多个抽象语义表达式;
根据所述词性信息和词类信息对抽象语义候选集中的抽象语义表达式进行匹配处理,得到与所述初始请求信息匹配的抽象语义表达式。
11.如权利要求9或10所述的建立方法,其特征在于,在进行匹配处理之前还包括:判断所述抽象语义候选集中抽象语义表达式的数目是否位于预定范围内,当所述抽象语义候选集中抽象语义表达式的数目大于预定范围时,去除部分抽象语义表达式;当所述抽象语义候选集中抽象语义表达式的数目小于预定范围时,从默认集合中补充部分抽象语义表达式。
12.如权利要求9或10所述的建立方法,其特征在于,所述抽象语义表达式还包括语义规则词;所述抽象语义候选集中抽象语义表达式的至少部分语义规则词与所述初始请求信息中至少部分单独词相同或属于同一词类。
13.如权利要求12所述的建立方法,其特征在于,与所述初始请求信息匹配的抽象语义表达式满足以下条件:缺失语义成分对应的词性包括对应的填充内容的词性;
初始请求信息中填充内容外对应的单独词与语义规则词相同或两者属于同一词类;
该抽象语义表达式与初始请求信息的顺序相同。
14.如权利要求9或10所述的建立方法,其特征在于,当与所述初始请求信息匹配的抽象语义表达式的数目M大于需要存入智能问答知识库中具体语义表达式的数目N时,还包括:分别对与所述初始请求信息匹配的抽象语义表达式进行打分处理,从所述初始请求信息中提取与得分较高的N个抽象语义表达式的缺失语义成分对应的内容,将提取的内容填充到得分较高的N个抽象语义表达式对应的缺失语义成分,得到与所述初始请求信息对应的N个具体语义表达式。
15.如权利要求14所述的建立方法,其特征在于,所述打分处理采用以下一种或多种方式的结合:缺失语义成分匹配的数量越多,得分越高;
设定一抽象语义表达式中某一缺失语义成分为核心语义成分,其他缺失语义成分与该核心语义成分的距离越近,得分越高;
词性置信度越大,得分越高;
根据预先设定的抽象语义表达式的优先级,优先级越高,得分越高;
根据自然语言模型进行判断,对爬取的大量语料数据的分词给出对抽象语义表达式进行填充后获得的数据信息语义是否正确的概率,概率越高,得分越高。
16.一种智能问答知识库的建立装置,其特征在于,包括:
预置知识获取单元,用于获取多个预置知识,所述预置知识包括:一个标准问以及一个或多个扩展问;
接收单元,用于接收初始请求信息;
计算单元,用于将所述初始请求信息与所述预置知识进行语义相似度计算;
判断单元,用于判断语义相似度计算结果的最大值是否大于相似度阈值;
抽象语义表达式获取单元,用于获取多个抽象语义表达式,所述抽象语义表达式包括缺失语义成分;
抽象语义推荐模块,用于相似度计算结果的最大值小于相似度阈值时,根据所述多个抽象语义表达式对所述初始请求信息进行抽象语义推荐处理,获得与所述初始请求信息对应的一个或多个抽象语义表达式;
填充单元,用于当获得与所述初始请求信息对应的一个或多个抽象语义表达式时,从所述初始请求信息中提取与一个或多个抽象语义表达式的缺失语义成分对应的内容,并将提取的内容填充到对应的缺失语义成分中以得到与所述初始请求信息对应的一个或多个具体语义表达式;
存入单元,用于当相似度计算结果的最大值大于相似度阈值时,将相似度计算结果的最大值对应的预置知识中的标准问和扩展问以及对应的初始请求信息存入智能问答知识库;或者当相似度计算结果的最大值小于相似度阈值时,将所述具体语义表达式以及对应的初始请求信息存入智能问答知识库。
17.如权利要求16所述的建立装置,其特征在于,所述计算单元采用以下一种或多种方式的结合进行语义相似度计算:基于向量空间模型的计算方法、基于隐形语义索引模型的计算方法、基于属性论的语义相似度计算方法和基于汉明距离的语义相似度计算方法。
18.如权利要求16所述的建立装置,其特征在于,所述计算单元分别计算所述初始请求信息与所述标准问的语义相似度以及所述初始请求信息与每个所述扩展问的语义相似度,并将计算结果中的最高值作为所述初始请求信息与该预置知识的语义相似度结果。
19.如权利要求16所述的建立装置,其特征在于,所述相似度阈值大于或等于0.7且小于或等于1.0。
20.如权利要求16所述的建立装置,其特征在于,所述装置还包括文本预处理单元:用于对所述初始请求信息进行文本预处理。
21.如权利要求16所述的建立装置,其特征在于,所述抽象语义推荐模块包括:分词单元、规则词识别单元、词性标注单元、词类判断单元、搜索单元和匹配单元,其中,所述分词单元,用于对所述初始请求信息进行分词处理,得到若干单独词;
规则词识别单元,用于将每个单独词识别为语义规则词或非语义规则词;
词性标注单元,用于分别对每个非语义规则词进行词性标注处理,得到每个非语义规则词的词性信息;
词类判断单元,用于分别对每个语义规则词进行词类判断处理,得到每个语义规则词的词类信息;
搜索单元,用于对抽象语义表达式获取单元获取的多个抽象语义表达式进行搜索处理,得到与所述初始请求信息相关的抽象语义候选集,所述抽象语义候选集包括多个抽象语义表达式;
匹配单元,用于根据所述词性信息和词类信息对抽象语义候选集中的抽象语义表达式进行匹配处理,得到与所述初始请求信息匹配的抽象语义表达式。
22.如权利要求16所述的建立装置,其特征在于,抽象语义推荐模块包括:分词单元、词性标注单元、词类判断单元、搜索单元和匹配单元,其中,分词单元,用于对所述初始请求信息进行分词处理,得到若干单独词;词性标注单元,用于分别对每个所述单独词进行词性标注处理,得到每个单独词的词性信息;
词类判断单元,用于分别对每个所述单独词进行词类判断处理,得到每个单独词的词类信息;
搜索单元,用于对抽象语义表达式获取单元获取的多个抽象语义表达式进行搜索处理,得到与所述初始请求信息相关的抽象语义候选集,所述抽象语义候选集包括多个抽象语义表达式;
匹配单元,用于根据所述词性信息和词类信息对抽象语义候选集中的抽象语义表达式进行匹配处理,得到与所述初始请求信息匹配的抽象语义表达式。
23.如权利要求21或22所述的建立装置,其特征在于,所述抽象语义推荐模块还包括:数目判断单元、去除单元和补充单元,其中:数目判断单元,用于判断所述抽象语义候选集中抽象语义表达式的数目是否位于预定范围内;去除单元,用于当所述抽象语义候选集中抽象语义表达式的数目大于预定范围时,去除部分抽象语义表达式;补充单元,用于当所述抽象语义候选集中抽象语义表达式的数目小于预定范围时,从默认集合中补充部分抽象语义表达式。
24.如权利要求21或22所述的建立装置,其特征在于,所述抽象语义表达式还包括语义规则词;所述搜索单元搜索得到的所述抽象语义候选集中抽象语义表达式的至少部分语义规则词与所述初始请求信息中至少部分单独词相同或属于同一词类。
25.如权利要求24所述的建立装置,其特征在于,所述匹配单元得到与所述初始请求信息匹配的抽象语义表达式满足以下条件:缺失语义成分对应的词性包括对应的填充内容的词性;
初始请求信息中填充内容外对应的关键词与语义规则词相同或两者属于同一词类;
该抽象语义表达式与初始请求信息的顺序相同。
26.如权利要求21或22所述的建立装置,其特征在于,所述智能问答知识库的建立装置还包括打分单元,用于当抽象语义推荐模块获得的与所述初始请求信息匹配的抽象语义表达式的数目M大于需要存入智能问答知识库中具体语义表达式的数目N时,分别对与所述初始请求信息匹配的抽象语义表达式进行打分处理,将提取的内容填充到得分较高的N个抽象语义表达式对应的缺失语义成分,得到与所述初始请求信息对应的N个具体语义表达式。
27.如权利要求26所述的建立装置,其特征在于,所述打分单元采用以下一种或多种方式的结合进行打分处理:缺失语义成分匹配的数量越多,得分越高;
设定一抽象语义表达式中某一缺失语义成分为核心语义成分,其他缺失语义成分与该核心语义成分的距离越近,得分越高;
词性置信度越大,得分越高;
根据预先设定的抽象语义表达式的优先级,优先级越高,得分越高;
根据自然语言模型进行判断,对爬取的大量语料数据的分词给出对抽象语义表达式进行填充后获得的数据信息语义是否正确的概率,概率越高,得分越高。
28.如权利要求16所述的建立装置,其特征在于,还包括:答案提供单元,用于提供与初始请求信息对应的答案;所述存入单元将所述初始请求信息存入智能问答知识库的同时,将答案提供单元提供的答案一并存入智能问答知识库。
29.如权利要求16所述的建立装置,其特征在于,还包括:提取单元,用于当接收单元停止接收初始请求信息之后,从预置知识获取单元中至少提取未存入智能问答知识库的部分数目的预置知识;所述存入单元将提取单元提取的预置知识存入智能问答知识库。
30.一种智能问答知识库的建立系统,其特征在于,包括:
领域知识数据库,所述领域知识数据库包括多个预置知识,所述预置知识包括:一个标准问以及一个或多个扩展问;
抽象语义数据库,所述抽象语义数据库包括多个抽象语义表达式,所述抽象语义表达式包括缺失语义成分;
权利要求16~29任一项所述的建立装置。