1.一种基于知识图谱补全的问答方法,其特征在于:包括以下步骤:S1:将输入的自然语言问题Q划分为词或短语;
S2:利用字向量模型BERT将词表征为向量,得到矩阵作为模型输入;
S3:利用实体识别技术识别Q中的实体equestion,获取候选实体集{eKGs};
S4:查询eKGs的类别c,用c替换Q中的实体equestion,标记为Qc;
S5:构建声明式查询cyher,获取候选三元组集{(ei,rij,ej)},从而获取到候选关系集{rij};
S6:基于Qc和rij的关系链接:计算Qc和rij的余弦相似度,获取其语义相似度;
S7:在KGs中,如果eKGs和rij之间缺少关系,则执行步骤S8,否则执行步骤S11;
S8:学习实体eKGs和eKGs邻域内实体的新的向量表示;
S9:估计中心实体邻域内实体的重要性;
S10:基于现存的相关的三元组执行关系预测;
S11:基于实体和关系的知识图推理,获得答案A。
2.根据权利要求1所述的基于知识图谱补全的问答方法,其特征在于:在所述步骤S1中,通过HanLP与Stanford parser中的CRF句法分析器与最大熵依存句法分析器将Q划分为词或短语。
3.根据权利要求1所述的基于知识图谱补全的问答方法,其特征在于:在步骤S3中,具体包括以下步骤:S31:利用双向长短期记忆网络Bi-LSTM模型对问句中每个单词是否为实体进行预测;
S32:采用前、后向两个长短期记忆网络LSTM单元对输入序列(x1,x2,...,xt-1,xt)进行处理,输出为两个LSTM输出向量的拼接 其中, 为前向序列的输出, 为后向序列的输出;
S33:Bi-LSTM层的输出被送入sigmoid层进行处理,即输出层的输出向量为y=(y1,y2,...,yn),其中n为输入序列的长度,输出向量长度与输入序列是保持一致的,yi对应输入Q中第i个单词的标注信息,如果为“1”则表示实体,反之则不是;
S34:使用均方误差作为损失函数,即
其中,ω为权重,b为偏差,yi为模型的预测值,zi为目标值,λ为控制正规化的超参数,为L2正规化。
4.根据权利要求1所述的基于知识图谱补全的问答方法,其特征在于:步骤S4中,具体包括:利用潜在狄利克雷主题模型来概念化Q中的实体,通过结合主题模型潜在狄利克雷分配和一个大规模概率KGs,捕获单词之间的语义关系,开发一个基于语料库的上下文相关概念化框架。
5.根据权利要求1所述的基于知识图谱补全的问答方法,其特征在于:所述步骤S5中,在识别到Q中实体后,根据实体名称在KGs中进行声明式查询cyher,查询到相关三元组{(ei,rij,ej)},从而获取到候选关系集{rij}。
6.根据权利要求1所述的基于知识图谱补全的问答方法,其特征在于:所述步骤S6中,在关系链接任务中引入卷积神经网络CNNs模型,提取问句中关于关系的语义信息,对候选关系用CNNs进行处理,将得到的问句关系向量和知识图谱关系向量进行相似度匹配,通过计算余弦相似度来获取其语义相似度,即其中,θ是向量Qc和向量rij之间的夹角, 是Qc语义向量的第i个元素,rij是候选关系的第j个元素。
7.根据权利要求1所述的基于知识图谱补全的问答方法,其特征在于:所述步骤S8中,通过基于注意力的图嵌入AGE模型从实体的n跳邻域内学习实体的新的向量表示;
实体ei的一个三元组(ei,rij,ej)的向量表示为: 其中,分别为实体ei、关系rij和实体ej的向量表示,ω1表示线性转换矩阵;
学习每个相关三元组的绝对注意力值 计算如下:
其中,Leaky Re LU是一种非线性激活函数,ω2表示线性变换矩阵;
绝对注意力值 通过softmax函数对实体ei邻域内的所有实体进行归一化相对注意值 计算如下:其中 表示实体ei的邻域, 表示连接实体ei和实体em的关系集;
实体ei的新的向量表示如下所示:
其中 表示连接实体ei和实体ej的关系集;
实体ei的最终向量表示为:
8.根据权利要求1所述的基于知识图谱补全的问答方法,其特征在于:步骤S9中,利用实体重要性估计模型对中心实体n跳邻域内实体的重要性进行估计,所述实体重要性估计模型包括评分网络层SNL、多个得分聚合层SAL和中心度调整层CAL;
首先,SNL利用输入实体的特征来获得初始估计分数,SNL计算实体ei的初始得分为:其中, 为实体ei的新的向量表示;
然后,每个SAL包含一定数量的分数聚合头,每个分数聚合头独立执行分数聚合和注意力计算;在第一个SAL的每个分数聚合头中,从SNL接收实体重要性评分的初始估计s(0,κ)(ei),前一个SAL的输出用作下一个SAL的输入,第ι层的SAL包含Νι个分数聚合头,独立产生Νι个实体重要度估计s(ι,κ)(ei);
然后,在Νι个分数估计上执行一个最大池函数;
重要性分数的估计如下:
重要性分数的聚合s(ι,κ)(ei)表示为: 其中, 表示实体的n跳邻域实体, 为第ι个SAL的第κ个分数聚合头中ei和ej之间的相对注意值参数;
在第ι个SAL的第κ个分数聚合头中,相对注意值 定义如下:其中,Leaky Re LU为非线性激活函数,ω2为权向量, 为实体ei与实体ej之间关系的向量表示, 为实体ei与实体ek关系的向量表示;
对最后一层的第κ个分数聚合头应用一种缩放和移动中心性,表示为:c′(ι,κ)(ei)=δ(ι,κ)*c(ei)+λ(ι,κ)其中,c(ei)为实体ei的初始中心性;
基于最终SAL的每个得分汇总头,对最终SAL输出的中心性调整进行平均操作,采用非线性方法LeakyReLU,计算最终的估计s*(ei)如下:
9.根据权利要求1所述的基于知识图谱补全的问答方法,其特征在于:步骤S10中,具体包括:关系合成:通过在n-hop邻域之间引入一条辅助边,作为辅助关系,所述辅助关系的向量表示为所有现存的相关关系的向量表示之和。
10.根据权利要求1所述的基于知识图谱补全的问答方法,其特征在于:步骤S11具体包括:基于实体识别技术,对于问题中的实体,在KGs中获得候选实体;
对于问题所包含的关系,通过关系链接技术和关系预测技术得到候选关系;
基于候选实体和候选关系查询KGs,获得即答案A。