1.一种基于容错粗糙集的多义词词表示方法,其特征在于,包括以下步骤:
101、计算机获取语料库,并对语料库进行包括去页眉页脚、去标点符号和数字、大写转小写在内的预处理操作;
102、计算机对预处理后的语料库确定基词集合,基词表示需要训练词向量的词语;
103、计算机获取每个基词的不确定性函数即容错类;
104、计算机对于每个基词的不确定性函数集合,采用模糊聚类算法进行聚类,计算每个基词的词义数量,对于每个词语的容错类的类别数即为每个词语的词义数量;
105、计算机构建连续词袋模型CBOW,训练词向量,对于每个词语,如果有n个词义,则每个词语由n个向量进行表示,每个向量分别代表每个词义的词向量。
2.根据权利要求1所述的一种基于容错粗糙集的多义词词表示方法,其特征在于,所述步骤101读取语料库,并对语料库进行预处理操作,具体包括:
1)删除文档的页眉页脚,只取实际内容部分;
2)去除标点符号和数字;
3)将词语中的大写转换为小写。
3.根据权利要求1所述的一种基于容错粗糙集的多义词词表示方法,其特征在于,所述步骤102确定语料库的基词集合,主要操作如下:
1)统计语料库中出现的所有词语;
2)将所有词语作为基词即需要训练词向量的词语,基词集合为W={w1,w2,...,wn},
其中n表示基词的数量,wn表示基词中的第n个词语。
4.根据权利要求3所述的一种基于容错粗糙集的多义词词表示方法,其特征在于,所述步骤103获取每个基词的不确定性函数即容错类,包括步骤:
1)设语料库由集合D={d1,d2,...,dv}组成,其中di表示第i个文档;
2)计算每个基词的不确定性函数
Iθ(wi)={wj|fD(wi,wj)≥θ}∪{wi}=ci,其中Iθ(wi)表示词语wi的容错类,fD(wi,wj)表示D中同时包含词语wi和wj的文档的数量,θ是词语共现度阈值,在后面的内容中,用ci表示词语wi的容错类。
5.根据权利要求4所述的一种基于容错粗糙集的多义词词表示方法,其特征在于,所述步骤104计算每个词语的词义数量具体包括:
1)由容错粗糙集计算出的词语wi不确定性函数集合ci,向量表示为集合中所有词语向量的平均值其中,vcontext(ci)表示ci的向量表示,v(c)表示词语c的词向量,c表示词语wi的容错类ci中的某个词语。
2)确定词语的词义数量
其中,
sim(vi,vj)表示向量vi与vj之间的余弦相似度:μ(wi,k)是词语wi的第k个类别的类别中心;k(wi)是词语wi的上下文类别数量,即wi的词义数量;λ表示相似度阈值;
3)单词的词义预测为其距离最近的上下文表示的类别的类别中心:
6.根据权利要求5所述的一种基于容错粗糙集的多义词词表示方法,其特征在于,所述步骤105构建连续词袋模型CBOW,训练词向量,具体步骤如下:
1)给定词语wi的上下文单词集合coni={wi-R,...,wi-1,wi+1,...,wi+R},出现单词wi的概率为其中,wi-R和wi+R分别为wi的第R个上下文单词,v(coni)表示coni的向量表示。出现单词不为wi的概率为P(D=0|v(wi),v(coni))=1-P(D=1|v(wi),v(coni))其中,
2)对于一序列词语W={w1,w2,...,wn},目标函数为其中,w′i是随机采样的词语,给定上下文coni出现的噪声词语;D+是在语料库中出现的词语-上下文对(wi,coni);D—是词语-上下文对(w′i,coni)。
3)采用随机梯度上升优化算法进行参数更新,随机梯度上升优化算法算法具体包括:①计算当前目标函数的梯度:
②计算当前位置的上升距离:
其中,α为步长。
③进行参数更新:
若θ小于某个阈值ε,则停止迭代,算法终止。
7.一种介质,该介质内部存储计算机程序,其特征在于,所述计算机程序被处理器读取时,执行上述权利要求1~6任一项的方法。
8.一种基于容错粗糙集的多义词词表示系统,其特征在于,包括:预处理模块:用于计算机获取语料库,并对语料库进行包括去页眉页脚、去标点符号和数字、大写转小写在内的预处理操作;
语料库基词集合确定模块:计算机对预处理后的语料库确定基词集合;
词语的词义数量确定模块:计算机对于每个基词的不确定性函数集合,进行聚类,计算每个基词的词义数量;
多义词词向量训练模块:计算机构建连续词袋模型,采用随机梯度上升优化算法,进行多义词向量的训练。
9.根据权利要求8所述的一种基于容错粗糙集的多义词词表示系统,其特征在于,所述采用随机梯度上升算法进行多义词向量的训练进行优化,具体包括:①计算当前目标函数的梯度:
②计算当前位置的上升距离:
其中,α为步长。
③进行参数更新:
若θ小于某个阈值ε,则停止迭代,算法终止。