1.一种学术异构网络嵌入的模型训练方法,其特征在于,包括步骤:S1,获取多个论文;
S2,根据所述多个论文生成学术异构网络,所述学术异构网络包含节点、连接节点的边、文本内容;所述节点包括论文节点和多种论文特征节点;所述边表示边两端节点的关系;所述文本内容为论文节点的文本内容;
S3,选择多个论文节点作为查询节点,以查询节点和不同论文特征组成的元路径对所述学术异构网络进行游走,生成在各种论文特征查询条件下每个所述查询节点的关系同构图,再取所述关系同构图中所述查询节点的紧密关系节点集;
S4,对于每个所述查询节点,从所述学术异构网络和所述紧密关系节点集采样得到多个代表查询节点与其他节点关系的三元组数据;
S5,根据多个所述三元组数据训练语言表示模型,使所述语言表示模型能够将节点间的关系嵌入文本表示向量中。
2.如权利要求1所述的一种学术异构网络嵌入的模型训练方法,其特征在于,所述论文特征包括:论文作者和论文领域。
3.如权利要求1所述的一种学术异构网络嵌入的模型训练方法,其特征在于,所述步骤S3具体包括:
S3.1,从所述学术异构网络中随机选择多个论文节点作为查询节点生成查询集合Pq,选定查询节点和一种论文特征组成的元路径,设定一个非负整数k;
S3.2,选择一个查询节点q∈Pq,初始化集合S为空集,初始化待处理队列D,初始化集合Q为{q};
S3.3,取出集合Q中的一个节点p,初始化集合Ψ[p],将所有以所述节点p为起点通过所述元路径相连的节点添加进所述集合Ψ[p]和所述集合S中,所述集合Ψ[p]记录节点p的;所述 表示直接通过所述元路径相连的节点;
S3.4,判断所述集合Ψ[p]中节点数量是否大于等于所述k,若是则将所述集合Ψ[p]中的所有节点加入所述集合Q;若否则将所述节点p加入所述待处理队列D;
S3.5,判断所述集合Q中的节点是否已全部取出过,若是进入S3.6,若否返回S3.3;
S3.6,选择所述待处理队列D中的一个节点u,找到所述节点u的 节点v,找到记录节点v的 集合Ψ[v],删除所述集合Ψ[v]、所述待处理队列D、所述集合S中的节点u;
S3.7,判断所述节点v的实例路径数量是否大于等于所述k,若否将所述节点v加入所述待处理队列D;
S3.8,判断所述待处理队列D是否为空,若是则进入S3.9,若否返回S3.6;
S3.9,将所述查询节点q的全部 加入所述集合S中,得到该查询节点的紧密关系节点集S,返回S3.2,重新选择一个查询节点。
4.如权利要求1所述的一种学术异构网络嵌入的模型训练方法,其特征在于,所述步骤S3与步骤S4之间,还包括步骤S3.10:将多个不同元路径得到的紧密关系节点集取交集,得到多种论文特征交叉查找的紧密关系节点集。
5.如权利要求3或4所述的一种学术异构网络嵌入的模型训练方法,其特征在于,所述步骤S4的采样具体为:
对于每个查询节点,选取该查询节点在步骤S3.9或S3.10得到的紧密关系节点集S作为+
正样本p ,选取该查询节点在步骤S3.6从待处理队列D删除的节点和非正样本作为负样本‑
p ;该查询节点与其对应的正样本、负样本生成一系列三元组。
6.如权利要求5所述的一种学术异构网络嵌入的模型训练方法,其特征在于,所述训练语言表示模型具体为:
所述语言表示模型根据所述三元组中查询节点、正样本、负样本的文本内容生成三个节点的文本表示向量,使用三元组损失函数训练所述语言表示模型,使语言表示模型将查询节点与正样本拉近、与负样本推远。
7.如权利要求6所述的一种学术异构网络嵌入的模型训练方法,其特征在于,所述三元组损失函数的最小化损失函数为:+ ‑
Loss = max{(d(q , p ) ‑ d(q , p ) +m),0};其中m是超参数,默认为1,d是距离函数,q为查询节点;
*
使用L2距离d(q , p ) = ||vq – vp* ||2对所述语言表示模型的参数进行最小化损失目标的微调,其中vq为所述查询节点的文本表示向量,vp*为所述正样本或所述负样本的文本表示向量。
8.一种学术异构网络嵌入的文本表示方法,其特征在于,应用如权利要求1‑7任一项方法所训练的模型,将论文的文本内容输入所述模型中,得到所述论文嵌入了学术异构网络结构关系的文本表示向量。