1.一种面向实体检索查询的目标类型标识方法,其特征在于,具体按照以下步骤实施:步骤1、构造目标实体类型标识任务训练集,采用DBpedia本体作为类型分类树,通过众包的形式收集查询集DBpedia‑Entity v1中全部查询的目标类型注释;
所述步骤1具体按照以下步骤实施:
步骤1.1、由语言模型LM实现的以类型为中心的方法CCM‑LM、文档检索BM25算法实现的以类型为中心的方法CCM‑BM25、语言模型LM实现的以实体为中心的方法ECM‑LM、文档检索BM25算法实现的以实体为中心的方法ECM‑BM25四种基础检索方法构造目标实体候选类型集合,每种方法选取类型排名结果中的前10种类型,此外,还包括标准目标实体类型,以确保在收集人工注释时考虑到所有候选类型;
步骤1.2、对每个查询的候选类型进行批处理注释,使集合中的类型均成为目标类型的候选,如果某些查询的候选类型数量较大,将其分解为多个子任务,对于每个处于分类树中深度为1的顶级类型,将其所有子类型均放在同一个子任务中;
步骤1.3、对每个查询进行目标类型注释,注释出的类型涵盖所有相关实体,查询的所有候选类型都在一个子任务中,候选类型由在步骤1.2中标注的类型组成,根据其层次结构由顶级类型至最具体类型进行排列;
步骤2、对现有自动标识类型方法的语言模型特征、类型标签特征及类型与查询相似性度量方法特征进行分析,共提取N个用于类型学习排序LTR方法的特征;
所述步骤2中使用文档检索模型BM25和语言模型LM对基于以类型为中心方法CCM和以实体为中心方法ECM进行实现,将以类型为中心方法CCM与以实体为中心方法ECM标识的类型在排序列表中的得分作为类型学习排序LTR方法的语言模型特征,现有自动标识类型方法的语言模型特征如下:
CCM方法根据属于该类型的所有实体的上下文为每个类型构建生成文档,这些类型的表示像文档一样排列,使用标准检索方法对类型文档进行排序,实体的类型中关键字频率计算公式如下:
其中,f(qt,d))是关键字qt在类型描述文档d中出现的频率,w(e,c)表示实体类型关联权重,w(e,c)表达如下:
1
对于函数 如果实体e属于类型c,则返回1,否则返回0,将给定查询q=(qt ,
2 |q|
qt ,...,qt )的各个查询关键字的分数的相加作为类型的相关性分数,类型的相关性分数表达如下:
其中, 是标准的基于关键字的检索模型,i为查询关键字的位置,为检索模型中的参数,该模型基于类型中关键字频率f为每个查询项qt分配分数,scoreCCM(q,c)表示以类型为中心方法的目标类型得分;
ECM方法将属于给定类型c的实体与查询q的相关性得分相加总和作为该类型的最终排序得分,计算公式为:
其中,Rk(q)表示与查询q的相关性Top‑K排名的实体集合,scoreM(e,q)为基于标准检索模型方法对实体e的检索得分,w(e,c)表示实体类型关联权重,scoreECM(q,c)表示以实体为中心方法的目标类型得分;
步骤3、通过学习1排序方法对步骤2中提取的N个特征组成的训练数据进行监督学习,得到分类结果;
步骤4、确定查询测试集,进行目标类型标识,查询测试集采用从多个与实体相关的基准评估活动中合成的查询,查询包含简短的关键字查询到自然语言查询,任务描述如下:输入:关键字查询q与类型分类树
输出:类型排序列表(c1,c2,…,cn),其中,评估:对于查询q每个返回的类型ci根据其在排序列表中的位置标记一个得分;
步骤5、输出类型排序结果,实现对实体检索查询的目标类型标识。
2.根据权利要求1所述的一种面向实体检索查询的目标类型标识方法,其特征在于,所述步骤2中,对于所述步骤1给定的DBpedia本体类型分类树,对类型标签在类型分类树中的特征进行分析,类型标签特征如下:
1)类型深度:提取类型在分类系统中归一化深度作为类型标签特征;
2)子类型数量:提取类型在分类树中子类型数量特征,类型越具体,其在类型分类树中所处的层次越深,该类型的子类型数量就越少;
3)兄弟类型数量:提取类型在分类树中兄弟类型数量特征,类型越具体,其在类型分类树中所处的层次越深,该类型的兄弟类型数量就越多;
4)类型覆盖实体数量:在类型分类系统中分配给类型的实体数量。
3.根据权利要求2所述的一种面向实体检索查询的目标类型标识方法,其特征在于,所述步骤2中对类型标签的特异性特征以及类型与查询间的相似性度量特征进行分析,提取类型与查询相似性度量特征,首先,提取,三种基于统计学的类型标签特征;其次,使用Jaccard相似度方法计算类型与查询之间词项相似度,提取三个查询与类型标签之间相似度的特征;最后,使用余弦相似度方法计算查询与类型标签之间的词向量相似度,同样提取三个查询与类型标签之间相似度的特征,类型与查询相似性度量方法特征特征如下:
1)类型标签长度:类型标签长度定义为类型中词项的个数;
2)IDF值总和,类型标签中各个词项w的IDF值的总和,表示为:Sum_idf(c)=∑w∈cIDF(w) (7);
3)平均IDF值:类型标签中各个词项w的IDF值的平均值,表示为:Avg_idf(c)=∑w∈cIDF(w)/length(c) (8);
4)基于词项的Jaccard相似度:利用n‑gram模型生成查询与类型标签中连续n个词项的集合,通过Jaccard相似度计算词项之间相似度,其中n≤2;
5)基于词项中名词的Jaccard相似度:对上一个特征进行进一步的限制,其中n=1,即只计算单个词项的相似度,且查询与类型标签中通过n‑gram模型生成的词项集合中只包含名词;
6)基于词向量的余弦相似度:使用word2vec工具包提供的预训练的词嵌入向量,通过余弦相似度方法计算查询和类型标签的word2vec向量的相似度:Sim_cos_aggr(q,c)=cos(w2v(q),w2v(c)) (9)其中,w2v(q)为使用word2vec工具包表示查询q的词向量,w2v(c)为使用word2vec工具包表示类型c的词向量;
7)基于词向量的余弦相似度最大值:通过余弦相似度方法计算查询和类型标签中各个词项的word2vec向量对的相似度最大值:
8)基于词向量的余弦相似度平均值
4.根据权利要求3所述的一种面向实体检索查询的目标类型标识方法,其特征在于,所述步骤3具体按照以下步骤实施:
步骤3.1、假设训练集由n个查询qi,i=1,...,n组成,由特征向量 表示,其(i)
中m 是查询qi在步骤1中标注的相应相关性判断,在学习阶段,使用随机森林算法学习排名模型,根据最小化损失函数L(Y,f(x))确定特征组合方式,f(x)表示预测值,Y表示真实值,使得排序模型的输出尽可能准确地预测训练集中的真实标签,在测试阶段,将待测试查询输入到学习得到的排序模型中,根据相关性得分返回排序列表,即为最终排序任务结果;
步骤3.2、采用随机森林回归算法作为监督学习排序方法,构建随机森林步骤如下:假设随机森林中训练集大小为n,每个样本中特征个数为F,首先,通过自抽样方法bootstrap方法从步骤1的训练集中随机有放回地抽取大小为n的训练样本,据此构建对应决策树,每棵决策树的训练集不同,并且训练集中包含重复训练样本;同时,在选择节点特征构建决策树时,从全部F个特征中均匀随机抽取f个特征子集,其中f<
5.根据权利要求4所述的一种面向实体检索查询的目标类型标识方法,其特征在于,所述步骤3具体按照以下步骤实施:
对特征进行排序,分析特征对类型标签的辨别能力,其中,基于词向量的余弦相似度,基于词向量的余弦相似度最大值和基于词向量的余弦相似度平均值三个特征的信息增益值越高,表明类型与查询相似性度量方法特征越有效。