1.一种以用户语义为中心的知识图谱路径检索方法,其特征在于,建立至少两个实体之间的检索查询路径,所述检索查询路径受到:从公共知识图谱系统中根据预学习的实体属性关联语义和用户语义约束;
建立实体之间的检索查询路径时,所述实体包括用户的查询输入,所述查询输入包括:待检索关联的实体p,q∈V、公共知识图谱系统查询次数限制 和表达用户语义需求的约束集合π,共同表示为 即用户的查询输入;
所述用户语义约束包括:包含约束和除外约束:
所述包含约束,由属性集合 表示,表明检索查询路径上的每个实体必须包含πp中的属性,即对路径上的每一个实体v,有 其中,引入函数α来获取实体vh∈V所具有的属性集合;函数定义为α(vh)={
所述除外约束,由属性集合 表示,表明在计算关联集和实体关联时,πx集合中的属性不被考虑;
所述建立实体之间的检索查询路径是指根据用户查询对公共知识图谱系统进行检索以获取符合用户语义的实体路径,给定知识图谱G上的一个用户的查询输入首先检查实体p和q是否直接关联,或通过检查邻居实体集合 与确定是否存在一跳的关联:如果不存在,则期望寻找到一条短且紧密的关联;
确定短且紧密的关联的方法为利用二阶共现现象协助寻找到一个更有可能形成简短有意义的语义路径的中间实体:找到一个中间属性t,根据概率算法找到的具有t属性的实体更有可能成为路径上的实体;
所述预学习的实体属性关联语义包括:对公共知识图谱系统中的关联语义进行建模学习,将关联语义建模为属性在隐含话题空间中的向量表示。
2.根据权利要求1所述的一种以用户语义为中心的知识图谱路径检索方法,其特征在于,采用隐藏狄利克雷分布方法,英文LDA方法,用于建模文档和词汇间关联关系的生成式话题模型:K +
每个关联集 被映射为一个文档,并且与话题分布θ∈(0,1) 相关联,其中,K∈N表示话题空间的大小;关联集 的生成过程包含有两层多项分布:首先根据话题分布θ选取话题τ,之后根据话题和属性间的关联φτ选取属性t∈Λ,其中,知识图谱的事实集合F中所出现的所有属性由Λ表示。
3.根据权利要求2所述的一种以用户语义为中心的知识图谱路径检索方法,其特征在于,所述对公共知识图谱系统中的关联语义进行建模学习还包括:在预处理阶段,从公共知识图谱系统中采样一定数量的实体,之后通过采样该部分实体间的直接关联,生成大量的关联集 为观测训练样本,使用LDA方法进行属性关联语义的建模学习。
4.根据权利要求3所述的一种以用户语义为中心的知识图谱路径检索方法,其特征在于,所述建模学习采用基于变分贝叶斯的在线LDA算法。
5.根据权利要求4所述的一种以用户语义为中心的知识图谱路径检索方法,其特征在于,所述用户语义约束还包括语义属性间等价约束,表示为πe(t1,t2),t1,t2∈Λ,表示属性t1和t2在推断任务中等价,该关系满足自反性、对称性和传递性。
6.根据权利要求5所述的一种以用户语义为中心的知识图谱路径检索方法,其特征在于,所述用户语义约束还包括候选实体筛选和关联语义调整:首先考虑所有可能的候选实体:
1)考虑到包含约束要求实体都具有πp中的属性,候选实体集合应当表示为πp中的属性在选取检索查询路径上的候选实体时需被排除;
2)如果包含约束中的属性与其它属性有等价关系,则具有等价属性的实体需作为候选实体;
其次进行关联语义的调整:
在前述建模过程中获取了关联语义Φ,在具体的检索查询中对关联语义Φ进行调整以适应约束集合π;
1)根据下列步骤计算新的属性集合Λ′,并计算Φ在A′上的投影Φ′,首先根据除外约束计算原始属性集合中允许使用的属性集合:表示为对于每个属性t∈Λ′,如果有与其相关的等价关系πe(t,t′)∈π,将创建一个虚拟属性来代替t和t′,即从Λ′中删去t和t′以避免冗余,具有属性t或t′的实体将转为使用属性虚拟属性的集合表示为 新的属性集合计算Φ在Λ′上的投影Φ′时,中的属性保留原始的与话题间的关联强度,对于等价关系πe(t,t′)∈π所产生的虚拟属性 话题τ与属性 之间的关联概率为与属性t和t′关联概率之和,即有对
2)重建每个话题所具有的关联强度:在π的约束下,引入一个调整向量来记录剩余属性带来的话题关联强度,记为
3)对根据用户约束调整得到的关联语义Φ′中每个话题的概率分布重新进行归一化。
7.根据权利要求1所述的一种以用户语义为中心的知识图谱路径检索方法,其特征在于,根据概率算法找到的具有t属性的实体更有可能成为路径上的实体的方法包括:
1)根据实体共同关注的话题来选取中间属性:根据学习到的关联语义Φ,依据实体属性 和 计算实体话题分布θp和θq;通过计算两个话题分布的哈德曼积,结合约束处理过程得到的话题强度调整向量 即获取两者共同关注的话题分布作为参考话题分布:
2)根据θref随机选取一个隐含话题τ,根据以Φτ为参数的多项分布选取中间属性t;
根据事件的独立性,可使用如下公式计算每个属性的选取概率分布ω:|Λ|
ω=θref·Φ∈R (2)
3)在对公共知识图谱系统的查询次数尚少于查询预算 时,使用以ω为参数的多项分布选取中间属性t;
4)查找具有属性t的实体:检查集合 与
其中 表示实体p的邻居实体,其中 表示实体q的邻居实体, 表示具有属性t的实体;
如果两个集合均不为空时,则从 与 中各自选取实体m1和m2,他们由属性t所连接,同时分别与p或q连接,即查找到一条路径 并返回;
否则,将在查询预算 允许的情况下,重复步骤3)继续选取下一个中间属性。
8.根据权利要求7所述的一种以用户语义为中心的知识图谱路径检索方法,其特征在于,选取所述属性t时,引入属性的权重以表示用户对属性的重要性有偏好,属性t的权重定义为wt∈(0,1),形成权重向量 在路径推断过程中属性分布参数则计算为
9.根据权利要求1所述的一种实现以用户语义为中心的知识图谱路径检索方法的装置,其特征在于,包括:预处理模块和查询模块,用户通过查询模块向所述装置输入查询信息、输出查询结果;同时装置具备与外部信息源进行信息交互的数据链路;
所述预处理模块包括关联语义学习模块、实体属性关联语义,在预处理阶段通过关联语义学习模块,根据公共知识图谱系统中的实体属性关联信息,学习建模实体属性中所包含的实体关联语义;
所述查询模块包括用户约束处理模块和语义路径检索模块,在查询阶段,根据用户给出的实际语义约束对学习到的实体关联语义进行调整,以用户给出的实体为目标,对公共知识图谱系统进行检索,给出符合用户语义需求的实体路径,最终形成查询结果。