欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2018103293182
申请人: 浙江工业大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2023-12-11
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于PageRank的短文本分类摘要方法,包括如下步骤:步骤1:频繁项集生成;

包括以下内容:对待处理文本进行分词并过滤,去除停用词,替换同义词,生成该文本的初始词的集合;在处理完所有文本后,统计文本分词结果中每个词的词频并依据词频对所有词进行排序;调整文本分词结果内部词序,按词频降序排列;设定阈值minSupport,删去分词结果中词频小于该阈值的词;基于频繁模式树FP-tree的数据结构,使用频繁模式增长方法FP-growth生成频繁项集;

步骤2:项集关系建模;

需要通过数据的分析统计并进行简单计算,构建PageRank关系模型,具体包含以下步骤:步骤2.1:初始化项集权值;

统计步骤1中生成一类问题的频繁项集总数n,统计项集中各词的词频tfi,i∈[1,n],结合项集中蕴含词的情况,统计计算集合中每个项集的初始权值如下:即项集蕴含词与其词频积的累加在总词频中占比;

进而得到集合的初始权值向量P0={p1,p2,…,pn}T;

步骤2.2:构建状态转移概率矩阵;

因为集合中每个频繁项集之间有重叠的词,而本方法的目的便在于通过构建图来描述频繁项集之间的关联;因此通过计算集合中频繁项集两两之间的交集的词语个数来代表相应两个频繁项集之间的数值化关系;即在集合中的所有项集所构成的有向图中,计算其边权值;可将项集视为一个特定的状态,边权值的物理意义即为由某一状态转变到另一状态的概率,即转移概率;

对于每个项集Si和Sj,都有交集词向量Xij={xi1,xi2,…,xin}T,其中xij表示项集Si与项集Sj的交集词的词频,当i=j时取值为0,进而构成矩阵W(因为衡量对象是所有频繁项集,故为n维矩阵):其中 即项集Si与项集Sj的交集词频对项集Si与其余所有项集交集词频和的比值,以此代表各项集之间的边权值,形成状态转移概率矩阵;

步骤2.3:修正状态转移概率矩阵;

由于项集之间存在交集词的关联,因此不难预见在计算过程中,项集的权值会根据其他项集的权值而产生变化;因此需要计算修正模型,使得能计算出一个稳定的值;

根据马尔科夫收敛定理,在满足以下条件时:

①有限状态个数;②固定的状态转移概率;

③状态之间可以以任意方式转变;④状态转移方式不唯一;

该马尔科夫过程将收敛到一个均衡状态,且此均衡唯一;

在满足以下条件的情况下,

①:状态个数为项集个数n;②:状态转移概率矩阵由项集决定且不会变化;④:项集交集所构成的边都是双向边,各状态之间在可达情况下有多种转移方式;仍然需要进行修正,以满足条件③;

考虑特殊情况,当某一项集与其余项集的交集均为空,即无法构建边,在这里将该项集称为孤立状态的项集;则当访问到该项集时,状态无法进行转移;为适应这一情况,进一步修正矩阵W为W1:以图的角度来看,该修正的物理意义是使得图是连通的,满足了条件③;

其中α为经验值,代表在迭代过程中孤立状态进行状态转移的概率,可结合实际情况自行修正;e为单位矩阵,因此公式的后半部分代表了直接访问该孤立状态的概率。

步骤3:项集模型计算并摘要;

指定迭代次数max_iter以及阈值min_diff;根据Pn+1=W1Pn,初始取值Pn=P0进行运算;

当两次迭代结果差小于阈值,即Pn+1-Pnmax_iter,即可视为运算结果收敛,可按需输出排名。