1.一种基于词统计与WordNet的义项表示与消歧方法,其特征是,包括如下步骤:步骤1、获取维基百科的离线页面文件,并对离线维基百科页面文件进行预处理,得到预处理好的维基百科语料;
步骤2、对于预处理好的维基百科语料,选取词频排在前K的词作为训练目标词与向量维度词进行词统计训练,得到词共现矩阵与词向量;
步骤3、从WordNet中获取词语的义项集及其同义词集;
步骤4、步骤2所得到的词共现矩阵与词向量和步骤3所得到的义项集及其同义词集,通过合并同义词的词向量,生成词语的义项向量;即:i i
步骤4.1、对于词语t的第i个义项t,将该词语t的词向量V(t)作为义项t的初始化义项i i向量SV0(t),即令SV0(t)=V(t);
步骤4.2、对于同义词集中单义同义词st,依次采用下式将该单义同义词st的词向量Vi i i(st)与初始化义项向量SV0(t)进行迭代合并,生成义项t的一级义项向量SV1(t),如下式所示:i i
SV1(t)={(si,wt(si,SV0(t))+wt(si,V(st))|si∈D1∪D2}i i
其中,wt(si,SV0(t))表示维度词si在初始化义项向量SV0(t)中的权重,wt(si,V(st))i表示维度词si在词向量V(st)中的权重,D1表示初始化义项向量SV0(t)中权重不为0的维度词的集合,D2表示词向量V(st)中权重不为0的维度词的集合;
i
在每次迭代合并前,先使用上一次迭代合并的结果SV1(t )作为初始化义项向量SV0i i i i i(t),即令SV0(t)=SV1(t);若义项t 同义词集中不存在任何单义同义词,则令SV1(t)=iSV0(t);
步骤4.3、对于同义词集中多义同义词dt,依次采用下式将该多义同义词dt词向量Vi i i(dt)与一级义项向量SV1(t)进行迭代合并,生成义项t的二级义项向量SV2(t),如下式所示:i i 2
其中,wt(si,SV1(t))表示维度词si在一级义项向量SV1(t)中的权重,wt(si,V(dt))表i i示维度词si在词向量V(dt)中的权重,wt(sj,SV1(t))表示维度词sj在一级义项向量SV1(t)i中的权重,D3表示一级义项向量SV1(t)中权重不为0的维度词的集合,D4表示词向量V(dt)中权重不为0的维度词的集合;
i i
在每次迭代合并前,先使用上一次迭代合并的结果SV2(t)作为一级义项向量SV1(t),i i i i即令SV1(t)=SV2(t);若义项t 同义词集中不存在任何多义同义词,则令SV2(t)=SV1i(t);
i
步骤4.4、对于义项t同义词集中的组合同义词ct,将该组合同义词ct中的第一个词ft的词向量V(ft)作为组合同义词ct的初始化组合词向量CV0(ct),即令CV0(ct)=V(ft);
步骤4.5、对于组合词同义词ct中的独立词at,依次采用下式将词向量V(at)与初始化组合词向量CV0(ct)进行迭代合并,生成组合同义词组合同义词ct的一级组合词向量CV1(ct),如下式所示:其中,wt(si,CV0(ct))表示维度词si在初始化组合词向量CV0(ct)中的权重,wt(si,V(at))表示维度词si在词向量V(at)中的权重,wt(sj,CV0(ct))表示维度词sj在初始化组合词向量CV0(ct)中的权重,D5表示初始化组合词向量CV0(ct)中权重不为0的维度词的集合,D6表示词向量V(at)中权重不为0的维度词的集合;
在每次迭代合并前,先使用上一次迭代合并的结果CV1(ct)作为初始化组合词向量CV0(ct),即令CV0(ct)=CV1(ct);
i i
步骤4.6、依次将步骤4.3所得t的二级义项向量SV2(t)与步骤4.5所得的一级组合词i i向量CV1(ct)进行迭代合并,生成义项t的最终向量SFV(t),如下式所示:i i
其中,wt(si,SV2(t))表示维度词si在二级义项向量SV2(t)中的权重,wt(si,CV1(ct))i表示维度词si在一级组合词向量CV1(ct)中的权重,wt(sj,SV2(t))表示维度词sj在二级义i i项向量SV2(t)中的权重,D7表示二级义项向量SV2(t)中权重不为0的维度词的集合,D8表示一级组合词向量CV1(ct)中权重不为0的维度词的集合;
i i
在每次迭代合并前,先使用上一次迭代合并的结果SFV(t)作为二级义项向量SV2(t),i i i i i即令SV2(t)=SFV(t);若义项t同义词集中无任何组合同义词,则令SFV(t)=SV2(t);
步骤5、从WordNet中获取词语的每个义项的注解集;
步骤6、将义项注解句与消歧文本形成待比较的文本对列表;
步骤7、将待比较文本对列表中的文本,进行词根还原处理,提取出它们之中的名词与动词分别作为它们的核心语义袋,以将文本对的比较转换为由名词和动词组成的核心语义袋的比较;
步骤8、通过核心语义袋,计算出词语每个义项的注解集与消歧文本之间的相似度;
步骤9、根据词语每个义项的注解集与消歧文本之间的相似度,输出注解集与消歧文本相似度最高的义项作为消歧结果。
2.根据权利要求1所述的一种基于词统计与WordNet的义项表示与消歧方法,其特征是,对于所生成的词向量和义项向量,只保存其中权重不为零的维度词及其权重,而将没有保存的维度词的权重默认为0。
3.根据权利要求1所述的一种基于词统计与WordNet的义项表示与消歧方法,其特征i i t是,步骤8中,词语t的义项t的注解集gloss(t)与待消歧词语t所在的消歧文本text之间i t的相似度sim(gloss(t),text)为:i t
sim(gloss(t),text)=max{sim(glBagj,textBag)|j∈[1,pi]}其中,sim(glBagj,textBag)表示核心语义袋glBagj与textBag之间的相似度,max{·}表示求最大值,glBagj表示从注解句子glj中提取出的由名词与动词组成的核i i心语义袋,glj表示义项t的注解集gloss(t)中任意一个由分号分隔的注解句子,textBagt i表示从待消歧文本text中提取出的由名词与动词组成的核心语义袋,pi表示义项t的注解i集gloss(t)中注解句子的个数,B1表示核心语义袋glBagj,B2表示核心语义袋textBag,|·|表示核心语义袋中词语的个数,depth(u)表示词语u在WordNet层次结构中的深度,depth(v)表示词语v在WordNet层次结构中的深度,LCS(u,v)表示词语u与v在WordNet中的最近公共父结点,depth(LCS(u,v))表示最近公共父结点在WordNet层次结构中的深度。