1.一种基于关键词位置结构分布的文档相似性度量方法,其特征在于,该方法包括:(1)存储两篇文档W1与W2,所述文档W1与W2均具有多个自然段,将所述存储的两篇文档W1与W2分别进行分词和停用词处理;
(2)设置任意目标关键词集合,在文档W1与W2内查找每个关键词出现的所有段落编号和位置信息,并分别采用三元组进行标注;
(3)根据所述段落编号和位置信息分别生成各个关键词分别在文档W1与W2中的位置分布序列;
(4)根据所述各个关键词分别在文档W1与W2中的位置分布序列计算每个关键词在文档W1与W2中位置分布序列的相似度,进而得到文档W1与W2的加权相似度。
2.根据权利要求1所述的基于关键词位置结构分布的文档相似性度量方法,其特征在于,所述步骤(2)中,所述位置的计算方法为:若所述关键词si所在某自然段的总字数为sum;所述自然段中的所述关键词si之前的字数记为precount,则所述关键词si在所述段落的位置为y=precount/sum。
3.根据权利要求1所述的基于关键词位置结构分布的文档相似性度量方法,其特征在于,所述步骤(3)中,关键词si在文档W1中的位置分布序列表示为:lds(si,W1)={{x1,(y11,...,y1a)},...,{xp,(yp1,...,ypq)}}其中,a,p,q为正整数,a为关键词si在文档W1的编号为x1出现的次数,(yp1,...,ypq)表示关键词si在文档W1的编号为xp自然段出现了q次,位置依次为yp1到ypq;
所述各个关键词在文档W2中的位置分布序列表示为:
lds(si,W2)={{x'1,(y'11,...,y'1a‘)},...,{x'p’,(y'p‘1,...,y'p’q‘)}}其中,a',p',q'为正整数,a'为关键词si在文档W2的编号为x'1的自然段出现的次数,(yp‘1,...,yp’q')表示关键词si在文档W2的编号为x'p'的自然段出现了q'次,位置依次为y'p'1到y′p'q'。
4.根据权利要求3所述的基于关键词位置结构分布的文档相似性度量方法,其特征在于,所述根据所述各个关键词分别在文档W1与W2中的位置分布序列计算每个关键词在文档W1与W2中位置分布序列的相似度,具体包括:(41)根据关键词si在W1中的位置分布序列lds(si,W1),计算各段落位置集合的均值,记作:(42)根据关键词si在W2中的位置分布序列对lds(si,W2),计算存在所述关键词的各段落位置集合的均值,记作:(43)计算Avg_lds(si,W1)各个二元组和Avg_lds(si,W2)中各个二元组均值差的绝对值,共计p*p'个值,选数值最大的前m个值,记为D1,D2,...,Dj,...,Dm;
(44)位置分布序列lds(si,W1)和lds(si,W2)的相似度DistSeq(lds(si,W1),lds(si,W2))表示为:
5.根据权利要求4所述的基于关键词位置结构分布的文档相似性度量方法,其特征在于,所述文档W1与W2的加权相似度,计算过程包括:(45)设定所述关键词si的权值wi=|lds(si,W1)|+|lds(si,W2)|,其中,|lds(si,W1)|为所述位置分布序列lds(si,W1)的长度,|lds(si,W2)|为lds(si,W2)的长度;
(46)所述文档W1与W2的加权相似度表示为:
WDist(W1,W2)数值越小,表明两个文档关于目标关键词集合S={s1,s2,...,si,...,sn}表现出的相似性越高,反之相似性越低。
6.一种根据权利要求1-5任一项所述的基于关键词位置结构分布的文档相似性度量方法实现的系统,其特征在于,包括:文档预处理模块,用于存储两篇文档W1与W2,所述文档W1与W2均具有多个自然段,将所述存储的两篇文档W1与W2分别进行分词和停用词处理;
关键词查找模块,用于设置任意目标关键词集合,在文档W1与W2内查找每个关键词出现的所有段落编号和位置信息,并分别采用三元组进行标注;
位置分布序列生成模块,用于根据所述段落编号和位置信息分别生成各个关键词分别在文档W1与W2中的位置分布序列;
文档相似度计算模块,用于根据所述各个关键词分别在文档W1与W2中的位置分布序列计算每个关键词在文档W1与W2中位置分布序列的相似度,进而得到文档W1与W2的加权相似度。
7.根据权利要求6所述的基于关键词位置结构分布的文档相似性度量系统,其特征在于,所述关键词查找模块还包括位置计算单元,用于计算所述关键词si在自然段中的位置信息,具体的:若所述关键词si所在某自然段的总字数为sum;所述自然段中的所述关键词si之前的字数记为precount,则所述关键词si在所述段落的位置为y=precount/sum。
8.根据权利要求6所述的基于关键词位置结构分布的文档相似性度量方法,其特征在于,所述位置分布序列生成模块还包括第一位置分布序列表示单元和第二位置分布序列表示单元,所述第一位置分布序列单元用于计算关键词si在文档W1中的位置分布序列,具体表示为:lds(si,W1)={{x1,(y11,...,y1a)},...,{xp,(yp1,...,ypq)}}其中,a,p,q为正整数,a为关键词si在文档W1的编号为x1出现的次数,(yp1,...,ypq)表示关键词si在文档W1的编号为xp自然段出现了q次,位置依次为yp1到ypq;
第二位置分布序列表示单元,用于计算各个关键词在文档W2中的位置分布序列,具体表示为:lds(si,W2)={{x'1,(y'11,...,y'1a‘)},...,{x'p’,(y'p‘1,...,y'p’q‘)}}其中,a',p',q'为正整数,a'为关键词si在文档W2的编号为x'1的自然段出现的次数,(yp‘1,...,yp’q')表示关键词si在文档W2的编号为x'p'的自然段出现了q'次,位置依次为y'p'1到y'p'q'。
9.根据权利要求8所述的基于关键词位置结构分布的文档相似性度量方法,其特征在于,所述文档相似度计算模块还包括:第一位置平均值计算单元,用于根据关键词si在W1中的位置分布序列lds(si,W1),计算各段落位置集合的均值,记作:第二位置平均值计算单元,用于根据关键词si在W2中的位置分布序列对lds(si,W2),计算存在所述关键词的各段落位置集合的均值,记作:计算因子选取单元,用于根据Avg_lds(si,W1)各个二元组和Avg_lds(si,W2)计算各个二元组均值差的绝对值,共计p*p'个值,选数值最大的前m个值,记为D1,D2,...,Dj,...,Dm;
分布序列相似度表示单元,用于表示位置分布序列lds(si,W1)和lds(si,W2)的相似度DistSeq(lds(si,W1),lds(si,W2)):
10.根据权利要求9所述的基于关键词位置结构分布的文档相似性度量方法,其特征在于,所述文档相似度计算模块还包括:权重计算单元,用于设定所述关键词si的权值wi=|lds(si,W1)|+|lds(si,W2)|,其中,|lds(si,W1)|为所述位置分布序列lds(si,W1)的长度,|lds(si,W2)|为lds(si,W2)的长度;
文档加权相似度计算单元,用于计算所述文档W1与W2的加权相似度,为:
WDist(W1,W2)数值越小,表明两个文档关于目标关键词集合S={s1,s2,...,si,...,sn}表现出的相似性越高,反之相似性越低。