欢迎来到知嘟嘟! 联系电话:13336804447 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13336804447
知嘟嘟经纪人
收藏
专利号: 2020112168757
申请人: 重庆邮电大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2026-06-04
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于深度学习语言模型融合语义特征的关键词提取方法,其特征在于,包括以下步骤:S1、给定一篇目标文档d,首先使用自然语言文本处理工具对文档d进行分词处理和词性标注,选择其中的名词或名词性短语作为候选关键词,得到一个候选关键词集合W={w1,w2,...,wn};其中wn表示第n个关键词,同时将目标文档按句子进行拆分,得到句子集合D={s1,s2,...,sm},其中sm表示第m个句子;

S2、将目标文档的句子集合输入预训练模型,得到句子集合中每个句子sj的向量表示Vsj;

S3、利用预训练语言模型获取每个候选关键词wi的向量表示Vwi;

S4、针对每个候选关键词,计算候选关键词与目标文档的句子集合中每个句子的余弦距离的均值作为候选关键词的最终得分;

S5、根据每个候选词得分的高低降序排列,根据需要选取前N个作为目标文档的关键词。

2.根据权利要求1所述的一种基于深度学习语言模型融合语义特征的关键词提取方法,其特征在于,所述步骤S1具体包括:S11、对于目标文档,对其中的每一个词,使用自然语言文本处理工具对其进行词性标注,以键值对的形式('词语','词性');

S12、遍历目标文档的键值对集合,仅保留其中的名词和名词性短语,构成目标文档的候选关键词集合。

3.根据权利要求1所述的一种基于深度学习语言模型融合语义特征的关键词提取方法,其特征在于,所述步骤S2将目标文档的句子集合输入预训练模型,得到句子集合中每个句子sj的向量表示Vsj,具体包括:预训练模型是自然语言处理领域中常见的公开的模型,可以直接使用也可以进一步训练,直接使用模型和训练好的模型数据;

针对句子集合中的每个句子sj,将其输入到公开的预训练语言模型Sentence-BERT中,使用公开的预训练模型加载公开的模型数据,得到句子的向量表示Vsj。

4.根据权利要求1所述的一种基于深度学习语言模型融合语义特征的关键词提取方法,其特征在于,所述步骤S3利用预训练语言模型获取每个候选关键词wi的向量表示Vwi;

针对候选关键词集合中的每个候选关键词wi将其输入到公开的预训练语言模型Sentence-BERT中,使用公开的预训练模型加载公开的模型数据,得到候选关键词的向量表示Vwi。

5.根据权利要求1所述的一种基于深度学习语言模型融合语义特征的关键词提取方法,其特征在于,所述步骤S4的余弦距离计算公式为: