1.一种相似度计算方法,该计算方法用于计算WordNet中词语的相似度,其特征在于,所述计算方法包括如下步骤:步骤1:从WordNet名词数据集data.noun中提取标号集;
步骤2:使用Word2Vec模型训练上述步骤1中提取的所述标号集;
步骤3:选取计算用单词对,使用Word2Vec模型从经上述步骤2训练过的所述标号集中提取该计算用单词对所对应的标号;
步骤4:基于上述步骤3中提取的所述计算用单词对所对应的标号,使用Word2Vec模型生成标号的词向量;
步骤5:基于上述步骤4中所生成的所述词向量,使用Word2Vec模型计算词语的相似度。
2.根据权利要求1所述的相似度计算方法,其特征在于,所述WordNet名词数据集data.noun包含多个原始数据行,每个所述原始数据行对应一同义词集,每个所述原始数据行的具体形式为{a1 b1 c1 d1 c2 e1 c2 e2},其中,a1为头标号,b1为第一同义词集,c1为与第一同义词集b1有上位关系的关系符号表示,d1为上位词集标号,c2为与第一同义词集b1有下位关系的关系符号表示,e1、e2均为下位词集标号。
3.根据权利要求2所述的相似度计算方法,其特征在于,所述步骤1进一步包括如下步骤:
步骤1.1:针对所述多个原始数据行中的一个原始数据行进行提取,依次提取该一个原始数据行的头标号a1、上位词集标号d1、下位词集标号e1及下位词集标号e2;
步骤1.2:将上述步骤1.1中提取的各标号汇集在一起,获得中间数据行{a1 d1 e1 e2};
步骤1.3:对上述步骤1.2中获得的所述中间数据行{a1 d1 e1 e2}进行如此处理:除头标号a1外,在上位词集标号d1、下位词集标号e1及下位词集标号e2的后面均插入一头标号a1,得到一标号集数据行{a1 d1 a1 e1 a1 e2 a1};
步骤1.4:针对所述多个原始数据行中的其余原始数据行重复上述步骤1.1至步骤1.3,分别得到其各自对应的一标号集数据行{a1 d1 a1 e1 a1 e2 a1},最终,共获得多个标号集数据行;
步骤1.5:将上述步骤1.4中最终获得的所述多个标号集数据行汇集在一起,获得所述标号集。
4.根据权利要求2所述的相似度计算方法,其特征在于,所述步骤1进一步包括如下步骤:
步骤1.1:针对所述多个原始数据行中的一个原始数据行进行提取,依次提取该一个原始数据行的头标号a1、上位词集标号d1、下位词集标号e1及下位词集标号e2;
步骤1.2:将上述步骤1.1中提取的各标号汇集在一起,获得中间数据行{a1d1 e1 e2};
步骤1.3:对上述步骤1.2中获得的所述中间数据行{a1 d1 e1 e2}进行如此处理:分别以上位词集标号d1、下位词集标号e1及下位词集标号e2为中心,在上位词集标号d1的前后位置均插入一头标号a1,分别在下位词集标号e1及下位词集标号e2的前面插入一标号串,该标号串为一头标号a1和所有上位词集标号d1组成的标号串{a1 d1},且分别在下位词集标号e1及下位词集标号e2的后面插入前述标号串{a1 d1}的倒序排列形式的标号串{d1 a1},得到一标号集数据行{a1 d1 a1 a1 d1 e1 d1 a1 a1 d1 e2 d1 a1};
步骤1.4:针对所述多个原始数据行中的其余原始数据行重复上述步骤1.1至步骤1.3,分别得到其各自对应的一标号集数据行{a1 d1 a1 a1 d1 e1 d1 a1 a1 d1 e2 d1 a1},最终,共获得多个标号集数据行;
步骤1.5:将上述步骤1.4中最终获得的所述多个标号集数据行汇集在一起,获得所述标号集。
5.根据权利要求4所述的相似度计算方法,其特征在于,对于包含m个上位词集标号d1......dm的中间数据行而言,在所述步骤1.3中,需在每个上位词集标号d1......dm的前后位置均插入一头标号a1,并进而在每个下位词集标号的前后位置分别插入标号串{a1 d1......dm}以及该标号串{a1 d1......dm}的倒序排列形式的标号串{dm......d1 a1},其中,m为大于零的整数。
6.根据权利要求1-5中任意一项所述的相似度计算方法,其特征在于,在所述步骤1.2中,训练时,将Word2Vec模型要训练出来的词向量的维度size设置为300,每一批传递给线程的单词数量batch_words设置为5000个,词向量上下文最大距离window设置为14,词语最低出现次数min_count设置为1,并将sg和hs均设置为1,即采用基于Hierarchical Softmax技术的Skip-gram模型。
7.根据权利要求1-5中任意一项所述的相似度计算方法,其特征在于,在所述步骤1.2中,训练时,将Word2Vec模型要训练出来的词向量的维度size设置为100,每一批传递给线程的单词数量batch_words设置为9个,词向量上下文最大距离window设置为15,词语最低出现次数min_count设置为1,并将sg和hs均设置为1,即采用基于Hierarchical Softmax技术的Skip-gram模型。
8.根据权利要求1-7中任意一项所述的相似度计算方法,其特征在于,在所述步骤5中,当使用Word2Vec模型计算出来的词语的相似度为多个时,选取多个相似度中的最大相似度作为最终计算结果。