1.一种基于知识图谱的关系链接方法,其特征在于,包括以下步骤:
S1、对知识图谱以及非结构化文本数据集进行采集及数据预处理,利用知识图谱进行标注,获取非结构化文本中的关系文本,作为训练集:S2、采用LSWMD位置敏感的词语移动距离算法,得到基于关系文本两两间的相似度矩阵,基于相似度矩阵进行聚类,得到关系文本类簇:S3、利用贝塔分布对关系文本类簇中词语的位置进行拟合,得到词语分布模式:
S4、利用词语分布模式,将训练集转化为向量,其中利用知识图谱标注过的关系文本是训练集,利用GBDT梯度提升树进行训练得到分类器:S5、对于没有通过知识图谱标注,或者无法通过知识图谱标注的非结构化文本,利用关系文本类簇进行匹配,并利用分类器进行判别,如果判别为真,则链接到知识图谱对应的关系。
2.根据权利要求1所述的基于知识图谱的关系链接方法,其特征在于,所述获取关系文本后还包括对关系文本进行规则降噪的步骤。
3.根据权利要求2所述的基于知识图谱的关系链接方法,其特征在于,所述关系文本进行规则降噪的步骤包括:筛选长度大于3小于11的关系文本。
4.根据权利要求1-3之一所述的基于知识图谱的关系链接方法,其特征在于,所述步骤S1对知识图谱数据集进行采集及数据预处理,获取关系文本,具体包括步骤:使用SparQL从知识图谱得到实体对,并建立实体对列表;根据主语得到相应的维基百科文章;利用nltk工具进行分句;若句子中包含主语、主语的别名、主语的主体部分,标记为subj;若句子中包含宾语、宾语的别名、宾语的主体部分,标记为obj;对句子截取subj与obj之间的文字部分,作为关系文本。
5.根据权利要求4所述的基于知识图谱的关系链接方法,其特征在于,所述步骤S2的LSWMD算法对关系文本进行聚类,得到关系文本类簇的步骤包括:利用word2vec将词语转化为向量;利用词语向量计算关系文本之间的语义距离矩阵;利用词语的位置计算关系文本之间的句法距离矩阵;将参数α乘以语义距离矩阵与(1-α)乘以句法距离矩阵之和作为EMD的输入,得到基于关系文本两两间的相似度,并构建为相似度矩阵,将相似度矩阵作为输入,使用密度峰值算法聚类,得到关系文本类簇。
6.根据权利要求5所述的基于知识图谱的关系链接方法,其特征在于,所述步骤S3获得词语分布模式步骤包括:统计词语在关系文本中的位置;利用贝塔分布对词语的位置信息进行拟合,得到参数α,β,然后统计出该词语在该类簇中出现的概率γ,将词语表示为(α,β,γ)的三元组;类簇中所有词语的三元组构成该类簇的词语分布模式。
7.根据权利要求6所述的基于知识图谱的关系链接方法,其特征在于,分类器的训练步骤包括:根据类簇大小初始化向量;训练集的句子利用4到10的滑动窗口找到频率最大的词语序列;利用α,β参数,以及该词语在词语序列的位置,计算出词语的匹配度填写到向量对应位置;将该词语序列在每个类簇的向量拼接起来,利用GBDT训练该向量得到一个分类器。
8.根据权利要求6所述的基于知识图谱的关系链接方法,其特征在于,所述步骤S5非结构化文本关系利用分类器进行判别,并链接到知识图谱对应的属性页面具体包括步骤:利用词语分布模式将非结构化文本转化为向量,利用分类器识别该文本是否包含该关系,若包含,将该文本的关系文本链接到知识图谱对应的属性页面。