欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2021114225778
申请人: 重庆邮电大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-02-23
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于知识图谱词义消歧的书评文本分类方法,其特征在于,该方法具体包括以下步骤:

S1:获取书评文本数据集;

S2:将书评文本进行分段处理,分为词级文本、句级文本和篇章级文本;

S3:对分段后的书评文本进行聚类并标签化,每个文本片段对应各自的外部知识实体;

S4:词级文本预处理:利用jieba分词器和HanLP分词器对文本片段进行分词得到各自的分词结果,保留相同的分词结果组成一个集合,不同的分词结果再通过基于知识图谱的相似性计算得到最佳的分词结果;

S5:计算词级文本间的语义相似度、余弦相似度、目标函数以及得分;

S6:提取文本片段的特征:将词向量之间的余弦相似度和词汇之间在知识图谱中对应的层次关联程度相结合,提取词级文本、句级文本和篇章级文本的特征;

S7:利用层次注意力网络提取各文本片段的特征信息,再对文本片段的特征信息进行一次层次注意力网路的文本处理,最终得到的特征信息经归一化处理完成文本分类。

2.根据权利要求1所述的书评文本分类方法,其特征在于,步骤S2具体包括:在传统的LDA模型中引入一个由外部知识组成的概念词层次结构层,利用信息的稀疏性特质,将主题模型简化表示,根据层次性的单词信息形成层次性的主题表达。

3.根据权利要求1所述的书评文本分类方法,其特征在于,步骤S2中,在对长文本数据进行分段处理时,将其分层次处理,并分别在词级、句级、篇章级信息处理之前将各级编码引入相对位置编码,最终得到精度更高的分类效果。

4.根据权利要求1所述的书评文本分类方法,其特征在于,步骤S3具体包括:采用TextRank模型获取文本特征词集合,利用知识图谱表达的词义序列关系确定多义词在特定的语义环境中的唯一语义,在词义概念层面完成文本的向量化表示,进行文本聚类,以消除多义词在不同语境中的歧义;利用知识图谱的树状结构特征,引入外部情感词典知识,构建一个关于词级文本语义关系的层级结构树,即词级文本知识图谱;根据各词级文本之间的最短通路与最长通路间的比例,得到词级文本的相似度测量信息。

5.根据权利要求1所述的书评文本分类方法,其特征在于,步骤S4中,所述知识图谱是将已有类别的文本片段对应的外部知识实体构成的一个树状层级结构。

6.根据权利要求1所述的书评文本分类方法,其特征在于,步骤S4具体包括:利用jieba分词器和HanLP分词器对文本片段进行分词得到各自的分词结果,保留相同的分词结果组成一个集合;对于不同的分词结果,利用知识图谱数据库计算某个词语与文本中其他词语的概念距离,选择概念距离和最小的词语作为最佳的分词结果,再将这些最佳的分词结果融入到相同分词结果的集合中,最终得到最佳整体上的分词结果。

7.根据权利要求1所述的书评文本分类方法,其特征在于,步骤S5具体包括:将通过外部知识构建的知识图谱得到的书评词级文本聚类信息分成n个簇,在每个簇中计算知识图谱中对应的层次关联程度,即词级文本在知识结构层当中的距离比例,作为文本间的语义相似度,结合文本的余弦相似度,得到每一个文本簇的目标函数;根据词级文本在各簇出现的次数及其在整个文本中出现的次数得到一个关于每个词级文本在当前簇中的得分,每个簇得分最高的词级文本作为当前文本簇的文本特征。

8.根据权利要求7所述的书评文本分类方法,其特征在于,步骤S5中,在处理语义相似度时,使用One‑Hot模型将待比较的集合转化为等长的向量表示,在传统的余弦相似度基础上,引入词级文本在外部知识库中的距离比例以及欧氏距离,使得同义词、近义词在句级文本中的歧义值降低。

9.根据权利要求1所述的书评文本分类方法,其特征在于,步骤S6具体包括:提取文本片段的相对位置向量,将文本片段的特征向量与相对位置向量进行融合,同时引入知识标记,构建一个知识模块;当训练好的知识模块收到输入的词向量时,该知识模块输出当前词对应的外部知识库编码信息,得到一个知识状态向量。

10.根据权利要求9所述的书评文本分类方法,其特征在于,步骤S6中,引入哨兵注意力机制,将知识图谱中的知识与文本相结合获取词汇的知识感知状态向量。