1.一种基于容错粗糙集的词袋模型文本表示方法,用于计算机自然语言处理,其特征在于,包括以下步骤:
101、计算机获取语料库,并对语料库进行包括去页眉页脚、去标点符号和数字、大写转小写和过滤停用词在内的预处理操作;
102、计算机对预处理后的语料库确定基词集合;
103、计算机获取每个基词的不确定性函数即容错类,构建不确定性函数矩阵;
104、计算机计算每个基词基于每篇文档的模糊隶属度,构建模糊隶属矩阵;
105、计算机基于模糊隶属矩阵,获取每篇文档的上近似和下近似,构建上、下近似矩阵;
106、计算机基于两种权重计算方案,构建语料库的文本表示矩阵;
两种权重计算方案为:
(1)直接将模糊隶属度作为基词的权重;
(2)对于在文档中出现的基词,将其模糊隶属度与在文档中出现次数的乘积作为权重;
对于属于文档的上近似但不在文档中出现的基词,将其模糊隶属度作为权重;对于不属于文档上近似的基词,取权重为0。
2.根据权利要求1所述的基于容错粗糙集的词袋模型文本表示方法,其特征在于,所述步骤101读取语料库,并对语料库进行预处理操作,具体包括:
1)删除文档的页眉页脚,只取实际内容部分;
2)去除标点符号和数字;
3)将词语中的大写转换为小写;
4)从sklearn和nltk工具包中下载停用词表,进行过滤停用词操作。
3.根据权利要求1或2所述的基于容错粗糙集的词袋模型文本表示方法,其特征在于,所述步骤102确定语料库的基词集合,主要操作如下:
1)计算语料库中出现的所有词语的数量;
2)选择频率最高的l个词语作为基词,基词集合为W={w1,w2,...,wn},其中n表示基词的数量,wn表示基词中的第n个词语。
4.根据权利要求3所述的基于容错粗糙集的词袋模型文本表示方法,其特征在于,所述步骤103构建不确定性函数矩阵,包括步骤:
1)将每篇文档用向量表示di=[woi1,woi2,...,woin],其中di表示第i篇文档,woij表示第i篇文档中是否出现第j个词语;
2)计算每个基词的不确定性函数
Iθ(wi)=[A(ci1)A(ci2)…A(cin)],其中A(cij)表示词语j是否属于词语i的容错类,
3)获得不确定性矩阵:
5.根据权利要求4所述的基于容错粗糙集的词袋模型文本表示方法,其特征在于,所述步骤104构建模糊隶属矩阵具体包括:
1)计算每个基词对于每篇文档的模糊隶属度其中,I为单位向量;di表示文档di的词语向量;Iθ(wi)为基词wi的不确定性函数;
2)构建模糊隶属矩阵
6.根据权利要求5所述的基于容错粗糙集的词袋模型文本表示方法,其特征在于,所述步骤105基于模糊隶属矩阵,构建上、下近似矩阵,具体步骤如下:
1)上近似矩阵:
其中
2)下近似矩阵:
其中
7.根据权利要求6所述的基于容错粗糙集的词袋模型文本表示方法,其特征在于,所述步骤106基于两种权重计算方案,构建语料库的文本表示矩阵,具体步骤如下:
1)若执行第一种权重计算方案,则文本表示矩阵为:
2)若执行第二种权重计算方案,则文本表示矩阵为:其中,mij表示第j个基词第i篇文档的权重,xij表示第j个基词在第i篇文档中的出现次数;
8.一种介质,该介质内部存储计算机程序,其特征在于,所述计算机程序被处理器读取时,执行上述权利要求1~7任一项的方法。
9.一种基于容错粗糙集的词袋模型文本表示系统,其特征在于,包括:预处理模块:用于计算机获取语料库,并对语料库进行包括去页眉页脚、去标点符号和数字、大写转小写和过滤停用词在内的预处理操作;
语料库基词集合确定模块:计算机对预处理后的语料库确定基词集合;
不确定性函数矩阵构建模块:计算机获取每个基词的不确定性函数即容错类,构建不确定性函数矩阵;
模糊隶属矩阵构建模块:计算机计算每个基词基于每篇文档的模糊隶属度,构建模糊隶属矩阵;
上、下近似矩阵构建模块:计算机基于模糊隶属矩阵,获取每篇文档的上近似和下近似,上、下近似矩阵;
语料库的文本表示矩阵构建模块:计算机基于两种权重计算方案,构建语料库的文本表示矩阵;
权重计算方案为:
(1)直接将模糊隶属度作为基词的权重;
(2)对于在文档中出现的基词,将其模糊隶属度与在文档中出现次数的乘积作为权重;
对于属于文档的上近似但不在文档中出现的基词,将其模糊隶属度作为权重;对于不属于文档上近似的基词,取权重为0。