1.一种基于文献引用关系的刊物聚类方法,其特征在于:所述方法包括以下步骤:步骤1:收集刊物所发表的论文信息以及论文之间的引用关系,计算刊物之间的相关度,将T个“论文-论文”的引用关系进行逐行转换,得到T行“刊物-刊物”关系;
步骤2:合并T行“刊物-刊物”关系,得到n个刊物之间的关系W,建立以刊物为节点的关系网络;
所述步骤2包括以下步骤:
步骤2.1:对于任意的两个刊物Js和Jh,统计T行“刊物-刊物”关系中出现所述两个刊物Js和Jh的引用关系Js→Jh的次数Ws,h,以Ws,h作为所述两个刊物Js和Jh的相关度;
步骤2.2:循环处理T行“刊物-刊物”关系,得到一个以n个刊物为节点、刊物之间关系为边的有向图W;
步骤3:采用谱聚类对以刊物为节点的关系网络W进行刊物划分,对刊物进行迭代聚类,得到聚类结果。
2.根据权利要求1所述的一种基于文献引用关系的刊物聚类方法,其特征在于:所述步骤1包括以下步骤:步骤1.1:以记录Pi→Pj表示论文Pi引用了论文Pj;
步骤1.2:分别识别论文Pi初次刊发于刊物Js上、论文Pj初次刊发于刊物Jh上;
步骤1.3:得到“刊物-刊物”关系Js→Jh;
步骤1.4:循环T个“论文-论文”的引用关系进行逐行转换,得到T行“刊物-刊物”关系。
3.根据权利要求1所述的一种基于文献引用关系的刊物聚类方法,其特征在于:所述刊物包括发表论文的期刊、会议集和图书。
4.根据权利要求1所述的一种基于文献引用关系的刊物聚类方法,其特征在于:所述有向图W中,Ws,h作为每条边的权重,代表刊物Js上的论文对刊物Jh上的论文的总引用次数。
5.根据权利要求1所述的一种基于文献引用关系的刊物聚类方法,其特征在于:所述步骤3包括以下步骤:步骤3.1:由有向图W计算得到对称矩阵A,A=(W+WT)/2;
步骤3.2:设置聚类的类目数k,0≤k≤0.5n;
步骤3.3:计算对称矩阵A每行的和,得到对角矩阵D,对角矩阵D中每个对角元素其中,p和q分别代表对称矩阵A的第p列和第q行;
步骤3.4:计算规范化的拉普拉斯矩阵L,
步骤3.5:对矩阵L进行矩阵的特征分解,得到n个特征值及相应的特征向量,对n个特征值排序选出最小的k个特征值,由其对应的特征向量组成矩阵V=[v1,v2,...vc,...vk],其中,vc对应第c个特征值的特征向量,c=1,...k;
步骤3.6:归一化所有矩阵V中的横向量,使矩阵V中的各元素之和为1,得到矩阵V';
步骤3.7:将矩阵V'中的每一行看成是一个对象的特征表示,以k-means得到所有矩阵V'的n个对象的k个类的聚类。
6.根据权利要求5所述的一种基于文献引用关系的刊物聚类方法,其特征在于:所述步骤3.7包括以下步骤:步骤3.7.1:随机初始化k个中心点,以k维向量m1,m2,...mk表示;
步骤3.7.2:对于矩阵V'中的每一行k维向量vi,计算其与每个中心点的欧式距离||vi-mf||,其中,mf对应第f个中心点的向量,f=1,...k,f对应为第f个类;把vi分到距离最近的中心点所在的类;
步骤3.7.3:更新k个中心点,每个中心点的向量mf重新计算为所对应类f中的所有的对象的均值 其中,F为第f个类中包括的对象数量;
步骤3.7.4:重复步骤3.7.2,直至每个中心点稳定,此时更新前后的中心点的变化距离小于ε,若仍未稳定,在给定的迭代次数R后结束迭代。
7.根据权利要求6所述的一种基于文献引用关系的刊物聚类方法,其特征在于:所述步骤3.7.2中,对象到中心点的距离由欧式距离计算得到;所述步骤3.7.4中,中心点的变化距离由欧式距离计算得到。
8.根据权利要求1所述的一种基于文献引用关系的刊物聚类方法,其特征在于:所述步骤3中,调用Gephi的可视化模块将聚类结果以可视化图的形式输出。
9.根据权利要求1所述的一种基于文献引用关系的刊物聚类方法,其特征在于:所述步骤3中,通过对聚类结果和人工分组的比较和分析,得出跨领域学科的形成。