知嘟嘟-专利交易平台_专利购买_专利出售-买专利,上嘟嘟

欢迎来到知嘟嘟！联系电话：13336804447 卖家免费入驻，海量在线求购！卖家免费入驻，海量在线求购！

嘟嘟会员

帮助中心网站地图

查出售查高校查求购查年费

我要发布

首页转移热力图Hot 专利交易委托购买高校专区科技服务专利求购年费查询行业资讯

联系电话：13336804447

知嘟嘟经纪人

基于拉普拉斯图谱的短文本聚类方法

面议

专利号： 2020116368625

申请人：西安理工大学

专利类型：发明专利

专利状态：已下证

专利领域：计算；推算；计数

更新日期：2026-04-06

缴费截止日期：暂无

价格&联系人

年费信息

委托购买

专利简介

专利详情

委托购买说明

需准备材料

常见问题

摘要:

权利要求书:

1.基于拉普拉斯图谱的短文本聚类方法，具体包括以下步骤：

步骤1，对SSC和20 News Group短文本数据集使用NLTK自然语言处理工具包进行预处理，包括标记化分词、去除停用词、词性标注和词干提取；

步骤2，对步骤1预处理后的短文本数据集进行向量化表示和降维处理，具体如下：步骤2.1，预处理的数据集表示为D={dj|j=1,2,3,…,n}；数据集D中文本特征词语构成的集合C={ti|i=1,2,3,…,m}；数据集D中第j个文本可以表示为dj={(t1,wj1),(t2,wj2),…,(ti,wji),…,(tm,wjm)}；

步骤2.2，采用TF‑IDF方法，计算词频TF和逆文本频率指数IDF值；

步骤2.3，根据TF和IDF，得到特征词语ti的TF‑IDF权值；

步骤2.4，根据词语的TF‑IDF权值，将文本数据集D转化为词频矩阵Qn×m；

步骤2.5，根据词频矩阵Q，计算测试数据集的邻接矩阵A、度矩阵M和拉普拉斯矩阵L；

步骤2.6，将拉普拉斯矩阵L的前K个特征值，按照从小到大排序，得到对应的特征向量，组成矩阵R作为K‑means算法的输入；

步骤3，对步骤2得到降维数据集，根据拉普拉斯矩阵特性，确定初始的聚类中心，根据拉普拉斯矩阵的特性选择初始聚类中心；通过步骤2中对文本数据集向量化表示并计算对应得拉普拉斯矩阵，依据拉普拉斯矩阵特征分解后特征值非负，对特征值按照大小排序，得到词语在文本中的重要性排序，对拉普拉斯矩阵的前K个特征值按照降序排序，将前K个特征值最大的特征向量作为初始聚类中心；K‑means算法会迭代中不断更新聚类中心，聚类结果取决于K个初始聚类中心；基于拉普拉斯图谱的短文本聚类方法中，初始聚类中心依据拉普拉斯矩阵的特性决定；其具体步骤如下：步骤3.1，将特征权值矩阵R的特征值从大到小进行排序；

步骤3.2，选取特征权值矩阵R中前K个特征值所对应的特征向量；

步骤3.3，将前K个特征向量作为K‑means算法的K个初始聚类中心；

步骤4，基于步骤3中的初始聚类中心，对预处理、向量化表示和降维处理后的短文本数据集进行K‑means聚类，具体为：将数据集输入K‑means聚类算法进行聚类，在聚类过程中计算拉普拉斯矩阵的特征值并从小到大排列，其对应的特征向量也按特征值递增排列，提取前K个特征值对应的特征向量进行K‑means聚类，可得到相应的K个类别；

步骤5，通过对数据集注入噪声数据来检验所提出方法的鲁棒性，其具体步骤如下：步骤5.1，对SSC数据集和20 News Group两个数据集人工加入噪音比例依次为5%、10%、

15%、20%、25%、30%的噪音数据，得到12个含有不同比例噪音数据的数据集；

步骤5.2，通过在每个数据集上检测该基于拉普拉斯图谱的短文本聚类方法的正确率，查看正确率变化程度，检验该方法的鲁棒性。