知嘟嘟-专利交易平台_专利购买_专利出售-买专利,上嘟嘟

欢迎来到知嘟嘟！联系电话：13336804447 卖家免费入驻，海量在线求购！卖家免费入驻，海量在线求购！

嘟嘟会员

帮助中心网站地图

查出售查高校查求购查年费

我要发布

首页转移热力图Hot 专利交易委托购买高校专区科技服务专利求购年费查询行业资讯

联系电话：13336804447

知嘟嘟经纪人

基于容错粗糙集的词袋模型文本表示方法、系统及介质

￥28000

专利号： 2019110233284

申请人：重庆邮电大学

专利类型：发明专利

专利状态：已下证

专利领域：计算；推算；计数

更新日期：2024-11-28

缴费截止日期：暂无

价格&联系人

年费信息

委托购买

专利简介

专利详情

委托购买说明

需准备材料

常见问题

摘要:

权利要求书:

1.一种基于容错粗糙集的词袋模型文本表示方法，用于计算机自然语言处理，其特征在于，包括以下步骤：

101、计算机获取语料库，并对语料库进行包括去页眉页脚、去标点符号和数字、大写转小写和过滤停用词在内的预处理操作；

102、计算机对预处理后的语料库确定基词集合；

103、计算机获取每个基词的不确定性函数即容错类，构建不确定性函数矩阵；

104、计算机计算每个基词基于每篇文档的模糊隶属度，构建模糊隶属矩阵；

105、计算机基于模糊隶属矩阵，获取每篇文档的上近似和下近似，构建上、下近似矩阵；

106、计算机基于两种权重计算方案，构建语料库的文本表示矩阵；

两种权重计算方案为：

(1)直接将模糊隶属度作为基词的权重；

(2)对于在文档中出现的基词，将其模糊隶属度与在文档中出现次数的乘积作为权重；

对于属于文档的上近似但不在文档中出现的基词，将其模糊隶属度作为权重；对于不属于文档上近似的基词，取权重为0。

2.根据权利要求1所述的基于容错粗糙集的词袋模型文本表示方法，其特征在于，所述步骤101读取语料库，并对语料库进行预处理操作，具体包括：

1)删除文档的页眉页脚，只取实际内容部分；

2)去除标点符号和数字；

3)将词语中的大写转换为小写；

4)从sklearn和nltk工具包中下载停用词表，进行过滤停用词操作。

3.根据权利要求1或2所述的基于容错粗糙集的词袋模型文本表示方法，其特征在于，所述步骤102确定语料库的基词集合，主要操作如下：

1)计算语料库中出现的所有词语的数量；

2)选择频率最高的l个词语作为基词，基词集合为W＝{w1,w2,...,wn}，其中n表示基词的数量，wn表示基词中的第n个词语。

4.根据权利要求3所述的基于容错粗糙集的词袋模型文本表示方法，其特征在于，所述步骤103构建不确定性函数矩阵，包括步骤：

1)将每篇文档用向量表示di＝[woi1,woi2,...,woin]，其中di表示第i篇文档，woij表示第i篇文档中是否出现第j个词语；

2)计算每个基词的不确定性函数

Iθ(wi)＝[A(ci1)A(ci2)…A(cin)]，其中A(cij)表示词语j是否属于词语i的容错类，

3)获得不确定性矩阵：

5.根据权利要求4所述的基于容错粗糙集的词袋模型文本表示方法，其特征在于，所述步骤104构建模糊隶属矩阵具体包括：

1)计算每个基词对于每篇文档的模糊隶属度其中，I为单位向量；di表示文档di的词语向量；Iθ(wi)为基词wi的不确定性函数；

2)构建模糊隶属矩阵

6.根据权利要求5所述的基于容错粗糙集的词袋模型文本表示方法，其特征在于，所述步骤105基于模糊隶属矩阵，构建上、下近似矩阵，具体步骤如下：

1)上近似矩阵：

其中

2)下近似矩阵：

其中

7.根据权利要求6所述的基于容错粗糙集的词袋模型文本表示方法，其特征在于，所述步骤106基于两种权重计算方案，构建语料库的文本表示矩阵，具体步骤如下：

1)若执行第一种权重计算方案，则文本表示矩阵为：

2)若执行第二种权重计算方案，则文本表示矩阵为：其中，mij表示第j个基词第i篇文档的权重，xij表示第j个基词在第i篇文档中的出现次数；

8.一种介质，该介质内部存储计算机程序，其特征在于，所述计算机程序被处理器读取时，执行上述权利要求1～7任一项的方法。

9.一种基于容错粗糙集的词袋模型文本表示系统，其特征在于，包括：预处理模块：用于计算机获取语料库，并对语料库进行包括去页眉页脚、去标点符号和数字、大写转小写和过滤停用词在内的预处理操作；

语料库基词集合确定模块：计算机对预处理后的语料库确定基词集合；

不确定性函数矩阵构建模块：计算机获取每个基词的不确定性函数即容错类，构建不确定性函数矩阵；

模糊隶属矩阵构建模块：计算机计算每个基词基于每篇文档的模糊隶属度，构建模糊隶属矩阵；

上、下近似矩阵构建模块：计算机基于模糊隶属矩阵，获取每篇文档的上近似和下近似，上、下近似矩阵；

语料库的文本表示矩阵构建模块：计算机基于两种权重计算方案，构建语料库的文本表示矩阵；

权重计算方案为：

(1)直接将模糊隶属度作为基词的权重；

(2)对于在文档中出现的基词，将其模糊隶属度与在文档中出现次数的乘积作为权重；

对于属于文档的上近似但不在文档中出现的基词，将其模糊隶属度作为权重；对于不属于文档上近似的基词，取权重为0。

推荐专利

基于容错粗糙集的多义词词表示方法、系统及介质

基于分词文本的电子病例查重方法、装置、计算机设备

发明专利

面议

我要求购

我不想找了，帮我找吧

您有专利需要变现?

我要出售

智能匹配需求，快速出售

摘要:

权利要求书:

知嘟嘟

友情链接

关于我们

联系我们