欢迎来到知嘟嘟! 联系电话:13336804447 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13336804447
知嘟嘟经纪人
收藏
专利号: 2021116452282
申请人: 中科大数据研究院
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2023-08-14
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种采用一套领域标签体系将多维度数据打通的方法,其特征在于:包括以下步骤:步骤一、引入一套权威的领域标签分类体系,并构建领域主题集字典库;包括以下步骤:S1、引入《中华人民共和国学科分类与代码国家标准》作为权威的领域标签分类体系,记为FOS_ZH;

S2、将领域标签分类体系FOS_ZH翻译为英文FOS_EN;

S3、从文本数据中抽取特征词,确定领域主题集,生成中文领域主题集字典库;所述领域主题集为领域及其特征词的集合;所述文本数据包括论文、专利、项目、标准、报告、新闻;

其中:生成中文领域主题集字典库包括以下步骤:

(1)从海量文本数据中抽取出中文数据;

(2)提取每篇中文文本数据的标题、摘要、关键词,将其合并为一个字符串S,对S进行清洗去除特殊符号并将多个空格合并为一个空格;然后使用jieba分词对S进行分词,将分词结果写入文件F_ZH的一行;形成最终所有中文文本的分词结果文件F_ZH;

(3)以文件F_ZH作为输入,使用gensim中的word2vec API 训练word2vec的200维词向量模型,记为M_ZH;

(4)利用M_ZH,使用word2vec分别计算FOS_ZH中每一个研究领域最近似的20个词,作为该研究领域的特征词集合,最终生成中文领域主题集字典库;

S4、从文本数据中抽取特征词,生成英文领域主题集字典库,具体包括以下步骤:(1)从海量文本数据中抽取出英文数据;

(2)提取每篇英文文本的标题、摘要、关键词,将其合并为一个字符串P,对P进行清洗,去除特殊符号,将多个空格合并为一个空格;然后使用NLTK分词对P进行分词,分词结果写入文件F_EN的一行;形成最终所有英文文献的分词结果文件F_EN;

(3)以文件F_EN作为输入,使用gensim中的word2vec API 训练word2vec的200维词向量模型,记为M_EN;

(4)利用M_EN,使用word2vec分别计算FOS_EN中每一个研究领域最近似的20个词,作为该研究领域的特征词集合,最终生成英文领域主题集字典库;

步骤二、基于构建的领域主题集字典库,分别对中文文本数据和英文文本数据打领域标签;其中对中文文本数据打领域标签包括以下步骤:(1)使用jieba分词对中文文本数据进行分词,并计算每一个分词的词频,取词频最高的8个词作为该文本数据的特征词集合V;

(2)V中每一个特征词与中文领域主题集字典库中每一个领域、每一个领域对应的特征词集合内元素一一比对,使用word2vec基于M_ZH模型,分别获取比对的两个词的词向量Vec1、Vec2,计算Vec1、Vec2的相似度;

(3)根据相似度计算结果判断是否属于该研究领域,判断标准为:若V中有3个词在某一个领域中存在余弦相似度计算结果大于0.8的,则认为该文献属于该研究领域;反之则不属于;

(4)对属于该领域的文献打上对应的研究领域标签;

对英文文本数据打领域标签包括以下步骤:

(1)使用NLTK分词对英文文本数据进行分词,并计算每一个分词的词频,取词频最高的

8个词作为该文本数据的特征词集合Y;

(2)Y中每一个特征词与英文领域主题集字典库中每一个领域、每一个领域对应的特征词集合内元素一一比对,使用word2vec基于M_EN模型,分别获取比对的两个词的词向量Vec1、Vec2,计算Vec1、Vec2的相似度;

(3)根据相似度计算结果判断是否属于该研究领域,判断标准为:若Y中有3个词在某一个领域中存在余弦相似度计算结果大于0.8的,则认为该文献属于该研究领域;反之则不属于;

(4)对属于该领域的文献打上对应的研究领域标签;

步骤三、从文本数据中抽取技术、人物、机构实体,分别构建机构库、人才库和技术库;

具体包括以下步骤:

S1、从海量文本数据中提取所对应的机构列表,然后将机构的全称、简称、英文名等进行规整,得到机构库;

S2、从海量文本数据中提取人物列表,然后根据人物相关的机构信息、合作网络、研究领域进行人物消歧,得到人才库;其中人物消歧方法包括以下步骤:(1)从中文文本中抽取中文名称的人物列表,然后根据人物的名称、所属机构、合作网络、成果关键词四个维度的相似度进行判断是否为同一个作者,得到中文人名人才库;

(2)从英文文本中抽取英文名称的人物列表,然后根据人物的名称、所属机构、合作网络、成果关键词四个维度的相似度进行判断是否为同一个作者,得到英文人名人才库;

(3)将中文人名人才库中的人名、机构名、合作网络、成果关键词进行英文翻译,从英文人名人才库中匹配相似的数据,若判定为同一人则将中英文的人物进行合并,得到中英融合的人才库;

S3、从海量文本数据中抽取技术名词以及技术名词之间的关系,并构建技术库;

步骤四、根据技术、人物、机构相关的已打通领域标签的文本数据,对技术、人物、机构打领域标签;具体包括以下步骤:S1、根据构建的人才库、机构库、技术库以及海量的不同维度的文本数据,过滤出每个技术、人物、机构相关的数据;

S2、从每个技术、人物、机构相关的数据中,提取根据步骤二已打统一标准体系的领域标签,并进行统计与排序;

S3、根据每个技术、人物、机构所统计的标签结果中,根据数据量设置技术、人物、机构不同的标签个数阈值N,根据标签统计排序结果取topN个标签为技术、人物、机构打领域标签。

2.根据权利要求1所述的采用一套领域标签体系将多维度数据打通的方法,其特征在于:步骤三中步骤S3中采用多头选择机制+sigmoid联合抽取模型从海量文本数据中抽取技术名词以及技术名词之间的关系,并构建技术库;其中联合抽取顺序为先采用BILOU标注,CRF解码抽取技术名词实体,再利用实体边界信息进行关系抽取。