1.一种融合图结构与节点关联的关键词提取方法,其特征在于:
1)获取文本,进行文本预处理;所述文本预处理的方法,其步骤如下:a.获取文本,文本由若干数目的句子组成;
b.文本除文本中所有的目录、标题、图、表,只留下文本信息;
c.对文本进行分词,对于英文文本,基于简单的空格进行分词;对于中文文本,使用常用的分词算法进行分词;
d.将文本进行停用词过滤;
e.去除每个句子之中重复的词语;
2)挖掘文档的频繁封闭项集并生成强关联规则集合;生成强关联规则集合的方法,其步骤如下:
a.建立事务集和项集;所述事务为文本T中的单个句子;所述事务集即为预处理后的整篇文本T;所述项集为整篇文本T包含的所有词语的任意子集记为I={w1,w2,...,wm},wi为项集里面的第i个词;
b.求封闭项集;所述封闭项集为项集X当且仅当 其中为闭包运算;
c.求项集长度,一个项集中项的个数称为项集长度,长度为k的项集称为k‑项集;
d.求项集的支持度,对于关联规则A→B, 则A→B的支持度sup(A→B)为T中含有A∪B的事务个数与T中总事务数的比值;
e.求关联强度;对于关联规则A→B, 则A→B的关联强度为:f.求强关联规则;对于关联规则A→B, 若满足sup(A→B)≥‑lift +lift
minsup且lift(A→B)≤max 或lift(A→B)≥min ,则A→B为强关联规则;其中,‑lift +lift
minsup为关联规则的最小支持度阈值,max 为最大负关联度阈值,min 为最小正关联度阈值;
g.求封闭频繁项集,项集X为频繁封闭项集当且仅当sup(X)≥minsup且S(X)=X;
h.生成强关联规则;首先,事务集T的频繁闭包集合为L={L1,L2,...,Lk},其中Li为i‑项集的频繁闭包集合;其次,抽取L中的不同长度的闭包及其支持度构成频繁封闭项集集合FC;然后,由FC得到不同长度的频繁项集及其支持度集合Fre={f1,f2,...,f3},其中fi为i‑频繁项集及其支持度集合;最后,根据fi为2≤i≤k,生成不同形式的关联规则集合AR,这些关联规则由m‑项集为1≤m≤i‑1,的规则头与(i‑m)‑项集的规则体构成,并根据Fre计算‑lift +lift
lift(m‑itemset→(i‑m)‑itemset);抽取满足lift≤max 或lift≥min 的规则作为强关联规则;
3)将强关联规则集合中不重复的规则头与规则体作为节点,节点之间有边当且仅当彼此存在强关联规则,以关联规则的关联强度作为边权重构建文档的关联图;
4)使用GSNA算法在关联图上随机游走,迭代计算每个节点的重要性分数,并对结果降序排序;
5)对前若干个节点聚类,取出每个类的类中心点作为文档的关键提取结果。
2.如权利要求1所述一种融合图结构与节点关联的关键词提取方法,其特征在于:所述
4)中GSNA算法,其步骤如下:
a.量化节点的图结构属性;为了量化节点的图结构属性,选取了六个指标;其中atr1、atr2、atr3分别表示与一个节点距离为1、2、3的节点个数,atr4为atr1与邻居节点度的平均值的比值,atr5为art2与art1的比值,atr6为art3与art2的比值;假设关联图中存在节点Ni,则Ni可形式化表示为Ni=(atr1,atr2,atr3,atr4,atr5,atr6);
b.求两个节点之间的语义距离;假设预处理后文档的词集为I={w1,w2,...,wn},节点Ni与I的共现概率分布为P={p1,p2,...,pn},Nj与I的共现概率分布为Q={q1,q2,...,qn},则Ni与Nj的语义距离为
c.求结合图结构属性与语义信息的节点间相似性;综合节点的图结构属性与语义信息,节点Ni与Nj的相似度衡量如公式(3)所示;当Ni与Nj的图结构属性或语义分布差异越大时,其相似度sij越低,反之当Ni与Nj的结构属性或语义分布越接近时,sij相应越高;
e.归一化每个节点在关联图中的相似度;假设关联图共含有N个节点,存在强关联关系的节点之间有相似度,无强关联关系的节点之间相似度为0,则可形成关联图的相似度矩阵SN×N;为了更形式化地度量一个节点与所有节点的相似程度,将每个节点在关联图中的相似度计算归一化如下:
f.修正PageRank公式;
ri表示节点Ni与图中所有节点的平均相似程度,r=(r1,r2,...,rN)即为关联图中所有节点与图结构和语义属性相关的固定概率分布;使用ri修正PageRank公式,使得节点不再服从等概率跳转,而是使与关联图相似程度更大的节点被选中的概率更高,其公式如下:由于关联图为无向图,所以公式(5)中C(Nk)表示节点Nk的度,e表示Nk的邻居个数;
g.加强正关联的PR投票分数,降低负关联的PR投票分数;在关联图中,两节点之间有边当且仅当它们之间存在强关联规则;为了加强正关联的PR投票分数,降低负关联的PR投票分数,使用lift值对公式(5)改进如下:h.根据公式(6)在关联图上随机游走,迭代计算每个节点的PR值直至满足公式(7),使节点分数达到收敛状态,其中β为随机游走终止阈值;
3.如权利要求1所述一种融合图结构与节点关联的关键词提取方法,其特征在于:所述
5)中节点聚类,其步骤如下:将排序后的节点进行K‑Mediod聚类;首先选取降序排序后的前P个节点;其次从P个节点中选定K为K≤P个类中心;然后计算剩余节点与每个类中心的语义距离,并将其分配至所属距离最近的类中;最后,所有节点分配完毕后重新寻找每个类的类中心,并再次分配非类中心的节点;不断地重复类中心调整与分配节点的过程,直至相邻两次的节点分配结果差值达到聚类终止阈值,此时抽取每个簇的类中心作为文本最终的关键词。