欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2020115811705
申请人: 中科院计算技术研究所大数据研究院
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2023-08-14
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于XGBoost模型的多维指标集成的技术评价方法,其特征在于:包括以下步骤:

S1、获取技术评价科技类数据,所述技术评价科技类数据包括全球的论文、专利、项目数据;

S2、对技术评价科技类数据进行处理,包括以下步骤:(1)从论文、专利、项目中抽取专家和机构;

(2)对科技文献中的科研人员和机构名称消歧;

(3)对论文、专利、项目、专家和机构打上通用的技术领域标签、国家/地区标签;

(4)计算专家和机构的评价指标并进行排名;

(5)从论文、专利、项目科技数据中按照领域抽取技术名词;

S3、选择技术名词作为样本,计算样本技术的技术得分:通过国家统计局统计的全国技术热度排行榜,对全国的技术热度进行排名,并计算技术的技术得分score(i),score(i)=100‑0.09*(i‑1)i=1,…,1000

S4、选择技术的评价指标,将各评价指标根据维度分为一级指标和二级指标,建立技术评价指标体系,对每一项技术逐项计算指标结果,并对计算结果进行归一化处理;

S5、对XGBoost模型进行训练与调优,输出最终的评价模型,S6、采用评价模型按照评价指标体系计算出技术的综合得分。

2.根据权利要求1所述的基于XGBoost模型的多维指标集成的技术评价方法,其特征在于:所述评价指标体系为:

3.根据权利要求1所述的基于XGBoost模型的多维指标集成的技术评价方法,其特征在于:最终评价模型的构建方法包括以下步骤:(1)以技术得分score(i)作因变量,评价指标作独立变量,采用XGBoost进行模型训练与调优;

(2)将1000个技术的指数作为数据集,随机打散之后按照7:2:1的方式拆分成训练集、验证集和测试集;

(3)对XGBoost模型进行训练:通过每轮迭代产生一个弱回归器使每个回归器在上一轮回归器的残差基础上进行训练,通过降低偏差提高回归器的精度,所述弱回归器选择为CART TREE,将每轮训练得到的弱回归器加权求和得到总回归器,得到模型目标函数为:t

式中,obj表示目标函数,l表示损失函数,yi即真实值(对应score(i)),ft(xi)是第t棵树的输出结果, 是模型当前输出的结果,所以 就是t次迭代输出的最终结果,Ω(ft)是惩罚模型的复杂度,包括两个部分,即叶子节点的总数和叶子节点得到的L2正则化项;

(4)将训练集中的样本输入XGBoost模型,先添加一棵树,根据特征训练集中的特征进行分裂,若生成的树满足要求,训练完成,得到训练好的XGBoost模型;否则继续添加树,在对上一次分裂树进行分裂,通过不断添加学习新的函数,最终得到训练好的XGBoost模型;

(5)用测试集和验证集对训练好的XGBoost模型进行测试和验证,选择参数最优的模型为最终评价模型。

4.根据权利要求1所述的基于XGBoost模型的多维指标集成的技术评价方法,其特征在于:所述E‑score是通过考虑技术的新颖性、持久性、社区性、增长性计算E‑score分值,计算方法为:首先按照规则过滤新兴技术;然后计算新兴的技术名词的E‑Score,其计算数据源是最近十年在各类文献中技术出现的情况,这十年的前三年为活跃期,后七年为持续期;其中新兴技术过滤规则包括:

a、至少连续三年均出现文献中;

b、至少在7篇文献中出现;

c、活跃期技术的发文数/持续期发文数>=2;

d、持续期技术的发文数/持续期所有文献数<=0.15;

e、技术出现在不同文章不同作者;

若未通过过滤规则,则E‑score为0;若满足过滤规则,E‑Score=2*活跃期趋势+(近期趋势+年中到去年的斜率)。