知嘟嘟-专利交易平台_专利购买_专利出售-买专利,上嘟嘟

欢迎来到知嘟嘟！联系电话：13336804447 卖家免费入驻，海量在线求购！卖家免费入驻，海量在线求购！

嘟嘟会员

帮助中心网站地图

查出售查高校查求购查年费

我要发布

首页转移热力图Hot 专利交易委托购买高校专区科技服务专利求购年费查询行业资讯

联系电话：13336804447

知嘟嘟经纪人

基于容错粗糙集的多义词词表示方法、系统及介质

￥15000

专利号： 2019113264049

申请人：重庆邮电大学

专利类型：发明专利

专利状态：已下证

专利领域：计算；推算；计数

更新日期：2024-11-28

缴费截止日期：暂无

价格&联系人

年费信息

委托购买

专利简介

专利详情

委托购买说明

需准备材料

常见问题

摘要:

权利要求书:

1.一种基于容错粗糙集的多义词词表示方法，其特征在于，包括以下步骤：

101、计算机获取语料库，并对语料库进行包括去页眉页脚、去标点符号和数字、大写转小写在内的预处理操作；

102、计算机对预处理后的语料库确定基词集合，基词表示需要训练词向量的词语；

103、计算机获取每个基词的不确定性函数即容错类；

104、计算机对于每个基词的不确定性函数集合，采用模糊聚类算法进行聚类，计算每个基词的词义数量，对于每个词语的容错类的类别数即为每个词语的词义数量；

105、计算机构建连续词袋模型CBOW，训练词向量，对于每个词语，如果有n个词义，则每个词语由n个向量进行表示，每个向量分别代表每个词义的词向量。

2.根据权利要求1所述的一种基于容错粗糙集的多义词词表示方法，其特征在于，所述步骤101读取语料库，并对语料库进行预处理操作，具体包括：

1)删除文档的页眉页脚，只取实际内容部分；

2)去除标点符号和数字；

3)将词语中的大写转换为小写。

3.根据权利要求1所述的一种基于容错粗糙集的多义词词表示方法，其特征在于，所述步骤102确定语料库的基词集合，主要操作如下：

1)统计语料库中出现的所有词语；

2)将所有词语作为基词即需要训练词向量的词语，基词集合为W＝{w1,w2,...,wn}，

其中n表示基词的数量，wn表示基词中的第n个词语。

4.根据权利要求3所述的一种基于容错粗糙集的多义词词表示方法，其特征在于，所述步骤103获取每个基词的不确定性函数即容错类，包括步骤：

1)设语料库由集合D＝{d1,d2,...,dv}组成，其中di表示第i个文档；

2)计算每个基词的不确定性函数

Iθ(wi)＝{wj|fD(wi,wj)≥θ}∪{wi}＝ci，其中Iθ(wi)表示词语wi的容错类，fD(wi,wj)表示D中同时包含词语wi和wj的文档的数量，θ是词语共现度阈值，在后面的内容中，用ci表示词语wi的容错类。

5.根据权利要求4所述的一种基于容错粗糙集的多义词词表示方法，其特征在于，所述步骤104计算每个词语的词义数量具体包括：

1)由容错粗糙集计算出的词语wi不确定性函数集合ci，向量表示为集合中所有词语向量的平均值其中，vcontext(ci)表示ci的向量表示，v(c)表示词语c的词向量，c表示词语wi的容错类ci中的某个词语。

2)确定词语的词义数量

其中，

sim(vi,vj)表示向量vi与vj之间的余弦相似度：μ(wi,k)是词语wi的第k个类别的类别中心；k(wi)是词语wi的上下文类别数量，即wi的词义数量；λ表示相似度阈值；

3)单词的词义预测为其距离最近的上下文表示的类别的类别中心：

6.根据权利要求5所述的一种基于容错粗糙集的多义词词表示方法，其特征在于，所述步骤105构建连续词袋模型CBOW，训练词向量，具体步骤如下：

1)给定词语wi的上下文单词集合coni＝{wi-R,...,wi-1,wi+1,...,wi+R}，出现单词wi的概率为其中，wi-R和wi+R分别为wi的第R个上下文单词，v(coni)表示coni的向量表示。出现单词不为wi的概率为P(D＝0|v(wi),v(coni))＝1-P(D＝1|v(wi),v(coni))其中，

2)对于一序列词语W＝{w1,w2,...,wn}，目标函数为其中，w′i是随机采样的词语，给定上下文coni出现的噪声词语；D+是在语料库中出现的词语-上下文对(wi,coni)；D—是词语-上下文对(w′i,coni)。

3)采用随机梯度上升优化算法进行参数更新，随机梯度上升优化算法算法具体包括：①计算当前目标函数的梯度：

②计算当前位置的上升距离：

其中，α为步长。

③进行参数更新：

若θ小于某个阈值ε，则停止迭代，算法终止。

7.一种介质，该介质内部存储计算机程序，其特征在于，所述计算机程序被处理器读取时，执行上述权利要求1～6任一项的方法。

8.一种基于容错粗糙集的多义词词表示系统，其特征在于，包括：预处理模块：用于计算机获取语料库，并对语料库进行包括去页眉页脚、去标点符号和数字、大写转小写在内的预处理操作；

语料库基词集合确定模块：计算机对预处理后的语料库确定基词集合；

词语的词义数量确定模块：计算机对于每个基词的不确定性函数集合，进行聚类，计算每个基词的词义数量；

多义词词向量训练模块：计算机构建连续词袋模型，采用随机梯度上升优化算法，进行多义词向量的训练。

9.根据权利要求8所述的一种基于容错粗糙集的多义词词表示系统，其特征在于，所述采用随机梯度上升算法进行多义词向量的训练进行优化，具体包括：①计算当前目标函数的梯度：