欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2019110233284
申请人: 重庆邮电大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-11-28
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于容错粗糙集的词袋模型文本表示方法,用于计算机自然语言处理,其特征在于,包括以下步骤:

101、计算机获取语料库,并对语料库进行包括去页眉页脚、去标点符号和数字、大写转小写和过滤停用词在内的预处理操作;

102、计算机对预处理后的语料库确定基词集合;

103、计算机获取每个基词的不确定性函数即容错类,构建不确定性函数矩阵;

104、计算机计算每个基词基于每篇文档的模糊隶属度,构建模糊隶属矩阵;

105、计算机基于模糊隶属矩阵,获取每篇文档的上近似和下近似,构建上、下近似矩阵;

106、计算机基于两种权重计算方案,构建语料库的文本表示矩阵;

两种权重计算方案为:

(1)直接将模糊隶属度作为基词的权重;

(2)对于在文档中出现的基词,将其模糊隶属度与在文档中出现次数的乘积作为权重;

对于属于文档的上近似但不在文档中出现的基词,将其模糊隶属度作为权重;对于不属于文档上近似的基词,取权重为0。

2.根据权利要求1所述的基于容错粗糙集的词袋模型文本表示方法,其特征在于,所述步骤101读取语料库,并对语料库进行预处理操作,具体包括:

1)删除文档的页眉页脚,只取实际内容部分;

2)去除标点符号和数字;

3)将词语中的大写转换为小写;

4)从sklearn和nltk工具包中下载停用词表,进行过滤停用词操作。

3.根据权利要求1或2所述的基于容错粗糙集的词袋模型文本表示方法,其特征在于,所述步骤102确定语料库的基词集合,主要操作如下:

1)计算语料库中出现的所有词语的数量;

2)选择频率最高的l个词语作为基词,基词集合为W={w1,w2,...,wn},其中n表示基词的数量,wn表示基词中的第n个词语。

4.根据权利要求3所述的基于容错粗糙集的词袋模型文本表示方法,其特征在于,所述步骤103构建不确定性函数矩阵,包括步骤:

1)将每篇文档用向量表示di=[woi1,woi2,...,woin],其中di表示第i篇文档,woij表示第i篇文档中是否出现第j个词语;

2)计算每个基词的不确定性函数

Iθ(wi)=[A(ci1)A(ci2)…A(cin)],其中A(cij)表示词语j是否属于词语i的容错类,

3)获得不确定性矩阵:

5.根据权利要求4所述的基于容错粗糙集的词袋模型文本表示方法,其特征在于,所述步骤104构建模糊隶属矩阵具体包括:

1)计算每个基词对于每篇文档的模糊隶属度其中,I为单位向量;di表示文档di的词语向量;Iθ(wi)为基词wi的不确定性函数;

2)构建模糊隶属矩阵

6.根据权利要求5所述的基于容错粗糙集的词袋模型文本表示方法,其特征在于,所述步骤105基于模糊隶属矩阵,构建上、下近似矩阵,具体步骤如下:

1)上近似矩阵:

其中

2)下近似矩阵:

其中

7.根据权利要求6所述的基于容错粗糙集的词袋模型文本表示方法,其特征在于,所述步骤106基于两种权重计算方案,构建语料库的文本表示矩阵,具体步骤如下:

1)若执行第一种权重计算方案,则文本表示矩阵为:

2)若执行第二种权重计算方案,则文本表示矩阵为:其中,mij表示第j个基词第i篇文档的权重,xij表示第j个基词在第i篇文档中的出现次数;

8.一种介质,该介质内部存储计算机程序,其特征在于,所述计算机程序被处理器读取时,执行上述权利要求1~7任一项的方法。

9.一种基于容错粗糙集的词袋模型文本表示系统,其特征在于,包括:预处理模块:用于计算机获取语料库,并对语料库进行包括去页眉页脚、去标点符号和数字、大写转小写和过滤停用词在内的预处理操作;

语料库基词集合确定模块:计算机对预处理后的语料库确定基词集合;

不确定性函数矩阵构建模块:计算机获取每个基词的不确定性函数即容错类,构建不确定性函数矩阵;

模糊隶属矩阵构建模块:计算机计算每个基词基于每篇文档的模糊隶属度,构建模糊隶属矩阵;

上、下近似矩阵构建模块:计算机基于模糊隶属矩阵,获取每篇文档的上近似和下近似,上、下近似矩阵;

语料库的文本表示矩阵构建模块:计算机基于两种权重计算方案,构建语料库的文本表示矩阵;

权重计算方案为:

(1)直接将模糊隶属度作为基词的权重;

(2)对于在文档中出现的基词,将其模糊隶属度与在文档中出现次数的乘积作为权重;

对于属于文档的上近似但不在文档中出现的基词,将其模糊隶属度作为权重;对于不属于文档上近似的基词,取权重为0。