1.一种中文知识库答案获取方法,其特征在于,包括如下步骤:对用户输入的问题进行命名实体识别,获得问题的核心主题,包括如下步骤:对用户输入的问题进行分词,对分词结果进行词性标注,获得问题中包含的名词、动词、形容词,作为词性标注结果;
将上述词性标注结果和所述问题中包含的字符分别进行向量映射,获得词性向量矩阵xP和问题字符向量矩阵xQ;
将上述xP和xQ进行加和运算,提取加和运算结果x中包含的过去特征和未来特征,建立包含所述过去特征和未来特征的输出向量;
通过上述输出向量,获取所述问题中任意两个字符之间的关系,基于任意两个字符之间的关系得分得到预测序列;所述任意两个字符之间的关系为任意两个字符之间的语义关系;所述关系得分为任意两个字符对应语义向量之间的内积,通过多头注意力机制捕获的概率与元素之和得到;将任意两个字符之间关系得分的最大值对应的序列作为预测序列;
将预测序列中的连续序列作为核心主题;
根据上述核心主题检索中文知识库,获得待选答案;
根据深度语义匹配模型分别将所述问题和所述待选答案中的与核心主题相连的谓语转换到字层次和词层次的向量空间,获得字层次语义相似度和词层次语义相似度,得到问题和待选答案谓语之间的全局语义相似度;其中,分别提取分词后的问句和谓语的语义向量来计算所述词层次语义相似度;
基于所述全局语义相似度得到检索谓语,利用所述核心主题和检索谓语检索中文知识库得到最终答案。
2.根据权利要求1所述的中文知识库答案获取方法,其特征在于,所述建立包含所述过去特征和未来特征的输出向量,包括如下步骤:通过下面公式提取加和运算结果x包含的过去特征
式中, 为前向长短时记忆网络中隐层的输出的过去特征, 为前向长短时记忆网络, 为前向长短时记忆网络隐层上一时刻的输出,xi为加和运算结果x的第i个元素;
通过下面公式提取加和运算结果x包含的未来特征
式中,为后向长短时记忆网络中隐层的输出的未来特征, 为后向长短时记忆网络, 为后向长短时记忆网络的隐层上一时刻的输出;
通过下面公式获得包含所述过去特征和未来特征的输出向量HH=[h1,...,hi,...,hn]
式中,hi为所述输出向量的第i个元素。
3.根据权利要求1或2所述的中文知识库答案获取方法,其特征在于,所述获取所述问题中任意两个字符之间的关系,包括如下步骤:根据所述输出向量,获得放缩点注意力;
基于所述放缩点注意力,获得代表所述问题中任意两个字符之间的关系矩阵。
4.根据权利要求3所述的中文知识库答案获取方法,其特征在于,基于任意两个字符之间的关系得分得到预测序列,将预测序列中的连续序列作为核心主题,包括如下步骤:根据任意两个字符之间的关系矩阵,获得多头注意力机制的输出矩阵;
根据所述多头注意力机制的输出矩阵,获得代表所述问题中任意两个字符之间的关系得分;
基于所述任意两个字符之间的关系得分,获得所有序列的概率;
对上述概率取对数,获得所述概率的对数函数;
选择所述对数函数中最大的序列作为问题的预测序列,将所述预测序列中的连续序列作为问题的命名实体,所述命名实体即为问题的核心主题。
5.根据权利要求1所述的中文知识库答案获取方法,其特征在于,所述获得字层次语义相似度和词层次语义相似度,得到问题和待选答案谓语之间的全局语义相似度,具体包括如下步骤:将所述待选答案中及所述问题中与上述核心主题相连的谓语转换到字层次和词层次的向量空间;
通过下述公式得到字层次语义相似度:
式中,qc为字层次向量空间的问题;pc为字层次向量空间待选答案的谓语, 为字层次问题的语义向量; 为字层次待选答案谓语的语义向量;
通过下述公式得到词层次语义相似度:
式中,qw为词层次向量空间的问题;pw为词层次向量空间待选答案的谓语, 为词层次问题的语义向量; 为词层次待选答案谓语的语义向量。
6.根据权利要求5所述的中文知识库答案获取方法,其特征在于,通过下述公式得到全局语义相似度:sim(q,p)=λsim(qc,pc)+μsim(qw,pw)式中,q为问题;p为待选答案中的谓语;λ和μ为预先设定的超参数。
7.根据权利要求6所述的中文知识库答案获取方法,其特征在于,基于所述全局语义相似度得到检索谓语,利用所述核心主题和检索谓语检索中文知识库得到最终答案,具体包括如下步骤:基于所述全局语义相似度,通过softmax转换为概率值;
式中,E为待选答案中与核心主题相连的所有谓语集合,为谓语集合中的某一谓语;
将最大所述概率值对应的谓语作为检索谓语,利用所述核心主题和检索谓语检索中文知识库得到最终答案。
8.一种中文知识库答案获取装置,其特征在于,包括:命名实体识别模块,用于对用户输入的问题进行命名实体识别,获得问题的核心主题;
根据所述核心主题检索中文知识库,获得待选答案;所述命名实体识别模块包括下述流程:对用户输入的问题进行分词,对分词结果进行词性标注,获得问题中包含的名词、动词、形容词,作为词性标注结果;
将上述词性标注结果和所述问题中包含的字符分别进行向量映射,获得词性向量矩阵xP和问题字符向量矩阵xQ;
将上述xP和xQ进行加和运算,提取加和运算结果x中包含的过去特征和未来特征,建立包含所述过去特征和未来特征的输出向量;
通过上述输出向量,获取所述问题中任意两个字符之间的关系,基于任意两个字符之间的关系得分得到预测序列;所述任意两个字符之间的关系为任意两个字符之间的语义关系;所述关系得分为任意两个字符对应语义向量之间的内积,通过多头注意力机制捕获的概率与元素之和得到;将任意两个字符之间关系得分的最大值对应的序列作为预测序列;
将所述预测序列中的连续序列作为核心主题;
深度语义匹配模块,用于根据深度语义匹配模型分别将所述问题和所述待选答案中的与核心主题相连的谓语转换到字层次和词层次的向量空间,获得字层次语义相似度和词层次语义相似度,得到问题和待选答案谓语之间的全局语义相似度;
答案获得模块,用于基于所述全局语义相似度得到检索谓语,利用所述核心主题和检索谓语检索中文知识库得到最终答案。