欢迎来到知嘟嘟! 联系电话:13336804447 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13336804447
知嘟嘟经纪人
收藏
专利号: 2020116368625
申请人: 西安理工大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2026-04-06
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.基于拉普拉斯图谱的短文本聚类方法,具体包括以下步骤:步骤1,对SSC和20News Group短文本数据集使用NLTK自然语言处理工具包进行预处理,包括标记化分词、去除停用词、词性标注和词干提取;

步骤2,对步骤1预处理后的短文本数据集进行向量化表示和降维处理;

步骤3,对步骤2得到降维数据集,根据拉普拉斯矩阵特性,确定初始的聚类中心;

步骤4,基于步骤3中的初始聚类中心,对预处理、向量化表示和降维处理后的短文本数据集进行K‑means聚类;

步骤5,通过对数据集注入噪声数据来检验本发明所提出方法的鲁棒性。

2.如权利要求1所述的基于拉普拉斯图谱的短文本聚类方法,其特征在于:所述步骤2中,对步骤1中预处理后的数据集进行向量化表示和降维处理,其步骤如下:步骤2.1,预处理的数据集表示为D={dj|j=1,2,3,…,n};数据集D中文本特征词语构成的集合C={ti|i=1,2,3,…,m};数据集D中第j个文本可以表示为dj={(t1,wj1),(t2,wj2),…,(ti,wji),…,(tm,wjm)};

步骤2.2,采用TF‑IDF方法,计算词频TF和逆文本频率指数IDF值;

步骤2.3,根据TF和IDF,得到特征词语ti的TF‑IDF权值;

步骤2.4,根据词语的TF‑IDF权值,将文本数据集D转化为词频矩阵Qn×m;

步骤2.5,根据词频矩阵Q,计算测试数据集的邻接矩阵A、度矩阵M和拉普拉斯矩阵L;

步骤2.6,将拉普拉斯矩阵L的前K个特征值,按照从小到大排序,得到对应的特征向量,组成矩阵R作为K‑means算法的输入。

3.如权利要求1所述的基于拉普拉斯图谱的短文本聚类方法,其特征在于:所述步骤3中,根据拉普拉斯矩阵的特性选择初始聚类中心;通过步骤2中对文本数据集向量化表示并计算对应得拉普拉斯矩阵,依据拉普拉斯矩阵特征分解后特征值非负,对特征值按照大小排序,得到词语在文本中的重要性排序,对拉普拉斯矩阵的前K个特征值按照降序排序,将前K个特征值最大的特征向量作为初始聚类中心;K‑means算法会迭代中不断更新聚类中心,聚类结果取决于K个初始聚类中心。本发明提出的基于拉普拉斯图谱的短文本聚类方法中,初始聚类中心依据拉普拉斯矩阵的特性决定;其具体步骤如下:步骤3.1,将特征权值矩阵R的特征值从大到小进行排序;

步骤3.2,选取特征权值矩阵R中前K个特征值所对应的特征向量;

步骤3.3,将前K个特征向量作为K‑means算法的K个初始聚类中心。

4.如权利要求1所述的基于拉普拉斯图谱的短文本聚类方法,其特征在于:所述步骤4中,将数据集输入K‑means聚类算法进行聚类,在聚类过程中计算拉普拉斯矩阵的特征值并从小到大排列,其对应的特征向量也按特征值递增排列,提取前K个特征值对应的特征向量进行K‑means聚类,可得到相应的K个类别。

5.如权利要求1所述的基于拉普拉斯图谱的短文本聚类方法,其特征在于:所述步骤5中,通过对原数据集注入噪音数据检验算法的鲁棒性,其具体步骤如下:步骤5.1,对SSC数据集和20News Group两个数据集人工加入噪音比例依次为5%、

10%、15%、20%、25%、30%的噪音数据,得到12个含有不同比例噪音数据的数据集;

步骤5.2,通过在每个数据集上检测本发明提出的基于拉普拉斯图谱的短文本聚类方法的正确率,查看正确率变化程度,检验本发明方法的鲁棒性。