1.一种面向技术领域的专业人才搜索方法,其特征在于,该方法包含如下步骤:步骤1:生成技术领域词库和词向量库利用自然语言处理与机器学习技术,对海量科技成果数据资源进行文本处理、技术领域词识别,形成技术领域词库T,同时通过词向量训练得到对应的词向量库A;对每一个技术领域词ti∈T,都有且只有一个对应的词向量ai∈A;
步骤2:构建人才‑技术领域专业能力模型步骤2.1:生成人才‑技术领域关系通过对海量科技成果数据资源进行文本处理,实现科技成果所属技术领域的智能化标注,进而得到人才与科技成果的关联、人才与技术领域的关联关系;
步骤2.2:计算科技成果的质量评分Spaper、Spatent和Sproject分别表示学术论文、专利、科研项目三种类型科技成果的评分模型,其表达式如下:
Spaper=log(l·dc+10)·grade(dr)Spatent=patentType(da)Sproject=fund(db)·projectType(de)其中,dc为论文被引用次数,l为调节因子,调节论文引用次数对于分值的影响,dr为论文发表期刊的等级,grade(dr)表示对应论文期刊等级的常数影响值;da表示专利类型,patentType(da)为不同专利类型对应的常数影响值;db和de分别为项目经费和项目类别,fund(db)和projectType(de)分别为项目经费和项目类别对项目质量的影响值;
步骤2.3:计算科技成果的人才贡献度科技成果的人才贡献度C,用正比例函数来表示其排名与贡献程度的关系:其中,m表示人才在该科技成果中的排名,即第几成员,1≤m≤4,排名靠后的成员忽 略不计;
步骤2.4:计算科技成果的技术领域偏重度使用相关技术领域词向量的加权平均来表示科技成果的主题向量,该主题向量与技术领域词向量的归一化余弦相似度,即为该科技成果的技术领域偏重度;
为科技成果k的主题向量,设tki为科技成果k中的第i个技术领域词,aki为对应的词向量,tki∈T,aki∈A,xki为tki在科技成果k中出现的词频,n表示科技成果k中包含的技术领域词总数量,xk为上式中的xki之和;
Wki表示科技成果k对于tki的技术领域偏重度,通过计算词向量aki与主题向量 的归一化余弦相似度得到;
将tki用tf表示,tf∈T,tf表示T中第f个技术领域词,则对应的aki可以表示为af,Wki表示为W′kf,则得到下式
步骤2.5:构建人才‑技术领域专业能力模型将科技成果的质量评分、人才贡献度和技术领域偏重度三者相乘,计算得到人才就参与该科技成果的技术领域专业能力分值;人才‑技术领域专业能力是该人才所参与的各相关科技成果的技术领域专业能力分值之和,人才‑技术领域专业能力模型如下:其中,Vpf表示人才p对于技术领域tf的专业能力,Sk为科技成果k的质量评分,Cpk为该人才p在科技成果k中的贡献度;
科技成果k可以是学术论文、专利或科研项目,Sk可以如下表示如下:其中,α、β和γ则分别是学术论文、专利或科研项目三种类型科技成果质量权重的调节因子,三者的取值范围为[0,1],其和为1;
步骤3:生成索引文件实现搜索引擎根据步骤2中的人才‑技术领域专业能力模型进行计算得到所有人才在各技术领域的专业能力评分,生成相应索引文件并部署实现搜索引擎;用户在搜索框中输入技术领域词,即可搜索得到该技术领域专业能力从高到低排序的人才列表。