1.一种基于表示学习的隐藏关联挖掘方法,其特征在于,具体步骤如下:(1)抽取教师基本信息:姓名,所在院校和研究方向,构建高校教师领域知识图谱G;
(2)通过DEEPWALK算法向量化实体组合PCA降维并进行多距离度量计算实体相似度并获得关系扩展列表RES_DW_ONE,RES_DW_SEC;
(3)通过改进的NODE2VEC向量化实体组合PCA降维并进行多距离度量计算实体相似度并获得关系扩展列表RES_NODE_ONE,RES_NODE_SEC;
(4)将用户语料切分与系统自定义字典进行匹配,构建Cypher多条件查询语句,将实体查询结果RESULT封装回传至WEB应用程序;
(5) 通过用户查询实体集合与知识库中实体集合进行相似度度量,实现实体间关系维度扩展,获得实体集合DATA;
(6) 定义SIM_COUNT为系统封装实体数据集中相似度大于0.9的教师实体个数,RESULT_COUNT为系统封装实体数据集中教师实体总数,系统自定义参数SIM_COUNT/RESULT_COUNT作为距离度量算法寻优过程中的权衡因子;
(7) 开放Neo4j图数据库接口API和关联挖掘系统接口API,获取用户输入的关键字查询语句,抽取其中教师姓名参数,构造Cypher查询语句获取知识库中教师实体数据,将检索得到的教师实体ID作为参数传参至关联挖掘系统提供的API进行实体间关系扩展,得到系统封装的实体数据集,WEB应用程序通过ECharts渲染教师实体属性数据和实体间关系数据实现高校教师可视化;
所述步骤(1)中构建高校教师领域知识图谱G的具体步骤如下:(1.1) 抽取教师实体编号集合ID={id1, id2,…, idA}作为教师实体索引;
(1.2) 抽取教师实体间关系集合REID={reid1, reid 2,…, reid A};
(1.3) 定义循环变量i1遍历ID和REID,i1赋初值0,定义G为知识图谱,其中,G赋初值为空;
(1.4) 如果i1
(1.5) 对i1执行加1操作;
(1.6) 通过教师实体和教师研究方向实体间关系属性构造知识图谱G={REID, ID};
(1.7) 获取高校教师知识图谱G;
(1.8) 构建基于教师实体姓名的Cypher查询语句,将检索出的实体数据和实体间关系数据封装数据对象,提供相关查询接口API;
(1.9) 构建基于实体间关系属性的Cypher查询语句,将检索出的教师实体数据和实体间关系数据封装数据对象,提供相关查询接口API;
(1.10) 开放Neo4j相关查询端口,通过用户输入Input构建查询语句,检索实体信息和关系信息,封装数据对象,提供相关查询接口API;
所述步骤(2)中获得关系扩展列表RES_DW_ONE,RES_DW_SEC的具体步骤如下:(2.1) 定义循环变量i2遍历ID,REID和G,i2赋初值0;
(2.2) 如果i2
(2.3) 对i2执行加1操作;
(2.4) 运用deepwalk算法将G投射到64维空间,获取实体向量集合V_64;
(2.5) 得到实体向量集合VEC={V1,V2,…,Va},其中,Va属于集合中第a个实体向量;
(2.6) 定义循环变量i3遍历实体向量集合VEC,i3赋初值0;
(2.7) 如果i3
(2.8) 对i3执行加1操作;
(2.9) 通过PCA主成分分析,提取对实体向量影响最大的二维向量数据;
(2.10) 得到实体向量集合VEC_PCA={B1,B2 ,…,Bb},其中,Bb属于集合中第b个实体向量;
(2.11) 通过切比雪夫距离公式计算实体间相似度,定义与匹配实体相似度最大的TopN个实体列表集合RES_DW_ONE;
(2.12) 运用deepwalk算法将G投射到128维空间,获取实体向量集合V_128;
(2.13) 得到实体向量集合VEC_SEC={C1,C2 ,…,Cc},其中,Cc属于集合中第c个实体向量;
(2.14) 定义循环变量j1遍历VEC_SEC;
(2.15) 如果j1
(2.16) 对j1执行加1操作;
(2.17) 通过PCA主成分分析,提取对实体向量影响最大的三维向量数据;
(2.18) 得到实体向量集合VEC_PCA_SEC={D1,D2 ,…,Dd},其中,Dd属于集合中第d个实体向量;
(2.19) 通过皮尔逊相似度度量计算实体间相似度,定义与匹配实体相似度最大的TopN个实体列表集合RES_DW_SEC。
2.根据权利要求1所述的一种基于表示学习的隐藏关联挖掘方法,其特征在于,所述步骤(3)中获得关系扩展列表RES_NODE_ONE,RES_NODE_SEC的具体步骤如下:(3.1) 定义循环变量i4遍历ID,REID和G,i4赋初值0;
(3.2) 如果i4
(3.3) 对i4执行加1操作;
(3.4) 运用node2vec算法将G投射到64维空间,获取实体向量集合V_NODE_64;
(3.5) 得到实体向量集合VEC_NODE={E1,E2 ,…,Ee},其中,Ee属于集合中第e个实体向量;
(3.6) 定义循环变量i5遍历VEC_NODE;
(3.7) 如果i5
(3.8) 对i5执行加1操作;
(3.9) 通过PCA主成分分析,提取对实体向量影响最大的二维向量数据;
(3.10) 得到实体向量集合VEC_NODE_PCA={F1,F2 ,…,Ff},其中,Ff属于集合中第f个实体向量;
(3.11) 通过曼哈顿距离度量公式计算实体间相似度,通过实体ID指定索引,定义与匹配实体相似度最大的TopN个实体集合为RES_NODE_ONE;
(3.12) 运用node2vec算法将G投射到128维空间,获取实体向量集合V_NODE_128;
(3.13) 得到实体向量集合VEC_NODE_SEC={G1,G2 ,…,Gg},其中,Gg属于集合中第g个实体向量;
(3.14) 定义循环变量j2遍历VEC_NODE_SEC;
(3.15) 如果j2
(3.16) 对j2执行加1操作;
(3.17) 通过PCA主成分分析,提取对实体向量影响最大的三维向量数据;
(3.18) 得到实体向量集合VEC_NODE_PCA_SEC={H1,H2 ,…,Hh},其中,Hh属于集合中第h个实体向量;
(3.19) 通过余弦距离度量公式计算教师实体间相似度,定义与匹配实体相似度最大的TopN个实体集合为RES_NODE_SEC。
3.根据权利要求2所述的一种基于表示学习的隐藏关联挖掘方法,其特征在于,所述步骤(4)中构建Cypher多条件查询语句,将实体查询结果RESULT封装回传至WEB应用程序的具体步骤如下:(4.1) 通过逆向最大匹配算法RMM切分用户输入语料LIST={L1,L2 ,…,Ll},其中,Ll是LIST中的第l个词汇;
(4.2) 定义循环变量i6遍历LIST;
(4.3) 如果i6
(4.4) 对i6执行加1操作;
(4.5) 将用户语料集合LIST与系统字典SYS_LIST进行匹配;
(4.6) 定义循环变量i7遍历系统存储计算机词汇字典SYS_LIST,SYS_LIST= {N1,N2 …, Nn},其中,Nn为SYS_LIST中第n个词汇;
(4.7) 如果i7
(4.8) 对i7执行加1操作;
(4.9) 将用户切分语料LIST与系统自带字典SYS_LIST进行匹配;
(4.10)通过匹配结果构造Cypher多条件模糊查询语句,封装结果为RESULT={VECID,REID}。
4.根据权利要求3所述的一种基于表示学习的隐藏关联挖掘方法,其特征在于,所述步骤(5)中获得实体集合DATA的具体步骤如下:(5.1) 取封装结果RESULT={VECID,REID};
(5.2) 定义循环变量i8遍历RESULT集合;
(5.3) 如果i8
(5.4) 对i8执行加1操作;
(5.5) 将RESULT集合与实体集合列表DW_LIST,NODE_LIST进行遍历匹配;
(5.6) 系统自定义选取距离度量算发最优解计算RESULT与DW_LIST,NODE_LIST实体间相似度,定义最终推送集合为DATA;
(5.7) 封装DATA对象,DATA包含实体数据列表和关系数据列表。
5.根据权利要求4所述的一种基于表示学习的隐藏关联挖掘方法,其特征在于,所述步骤(6)中 定义SIM_COUNT为系统封装实体数据集中相似度大于0.9的教师实体个数,RESULT_COUNT为系统封装实体数据集中教师实体总数,系统自定义参数SIM_COUNT/RESULT_COUNT作为距离度量算法寻优过程中的权衡因子的具体步骤如下:(6.1) 获取集合RESULT={VECID,REID},DW_LIST,NODE_LIST;
(6.2) 定义循环变量i9遍历RESULT,DW_LIST和NODE_LIST,对距离度量算法采取轮询调度的思想实现实体间关系度量最优解;
(6.3) 如果i9
(6.4) 对i9执行加1操作;
(6.5)遍历RESULT中实体ID,获取向量数据与DW_LIST中实体向量进行相似度计算,提取DW_LIST中相似度最大的实体定义为集合RES_DW_LIST={DWRES1, DW RES2,…,DWRESr},其中,RES={VECID,SIM},SIM定义为实体间相似度;
(6.6) 定义循环变量i10遍历RESULT,NODE_LIST;
(6.7) 如果i10
(6.8) 对i10执行加1操作;
(6.9) 遍历RESULT中实体ID,获取向量数据与NODE_LIST中实体向量进行相似度计算,提取NODE_LIST中相似度最大的实体定义为集合RES_NODE_LIST={ NODE RES1, NODERES2,…,NODERESs};
(6.10) 通过实体间相似度SIM确定距离度量算法的选取,定义SIM_COUNT为RES中SIM大于0.9的实体个数,自定义度量算法权衡因子为SIM_COUNT/RESULT_COUNT。
6.根据权利要求5所述的一种基于表示学习的隐藏关联挖掘方法,其特征在于,所述步骤(7)中得到系统封装的实体数据集,WEB应用程序通过ECharts渲染教师实体属性数据和实体间关系数据实现高校教师可视化的具体步骤如下:(7.1) 开放Neo4j 图数据库API和高校教师隐藏关联挖掘系统API;
(7.2) 创建线程池Thread Pool;
(7.3) 判断线程池Thread Pool所有任务是否执行完毕;
(7.4) 用户输入查询语句,包含教师姓名数据或教师研究方向数据;
(7.5) 子线程Child Thread获取任务处理;
(7.6) 系统构造包含查询信息的Cypher查询语句,获取教师实体相关属性数据,通过关联挖掘系统提供的接口对查询所得的教师实体数据进行实体间关系维度扩展;
(7.7) 将系统通过关联挖掘所得的实体数据集封装返还WEB应用程序;
(7.8) 结束该子线程Child Thread;
(7.9) 关闭线程池Thread Pool;
(7.10) WEB应用程序通过ECharts渲染教师实体数据和实体间关系数据,提供用户教师实体数据可视化。