欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2020106801969
申请人: 浙江工业大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2023-12-11
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.融合主题模型和卷积神经网络的垂直域实体消歧方法,包括如下步骤:S1、根据特定领域收集经人工标注的数据集,对该数据集进行关键信息预处理,构建领域知识库,确定知识库中每一条数据对应的实体信息和实体序号;具体包括:S1.1、利用Pandas库从人工标注数据集文件以字典形式读取每条数据的关键信息,根据每个实体ID,实体名称,以及实体上下文信息抽取数据;

S1.2、将提取的关键信息数据集进行预处理,利用jieba中文分词工具对每一句上下文进行词性标注分词,去停用词操作,删除无关句子理解的词性单词,保留对理解句子语义有用的关键词;

S1.3、将处理后上下文数据集与其他属性进行保存,以易操作格式写入文本,并建立CSV格式文件来保存数据,构建该领域知识库,用作无歧义实体集,后续需要调用的候选实体从该保存文件中进行读取以用来和待消歧实体进行比较;

S2、将预处理后的数据集进行词向量模型训练,以及相应的词典构建;具体包括:S2.1、将知识库中代表实体的上下文关键词作为输入数据,利用深度学习技术word2vec提供的CBOW模型进行词向量模型的训练,构造更高维度的词向量信息,训练词向量模型,并保存作为待消歧上下文的向量化处理依据;

S2.2、将训练集中根据词性筛选后的词作为最能代表该实体指向的关键词,,获得对应词向量,建立关键词词典,以及利用已标注的实体具体含义指向建立类别词典,并用TXT格式保存词典,为后续LDA主题模型的训练做准备;

S3、根据包含待消歧实体的上下文信息,提取出待消歧实体名称,并从领域知识库中确定该实体对应的候选实体集,将实体上下文信息进行词向量化表示;具体包括:S3.1、将待消歧语句利用jieba中文分词系统进行分词,去停用词,以及去标点符号操作,提取出待消歧指称项和代表句子意思的关键词词组;

S3.2、根据该指称项获得知识库中的候选实体序号以及上下文数据;

S3.3、将代表该候选实体的上下文数据集都利用词向量模型进行词向量表示,作为候选实体的词向量矩阵;

S4、将经人工标注的训练集语料利用词库构造代表实体主题的关键词字典作为输入,输入LDA主题模型进行训练,并保存模型,待有新的待消歧语句经处理后输入进模型则能方便得到主题特征相似度;具体包括:S4.1、根据有标注的训练集,获取上下文中实体周围局部信息的关键词,构造关键词字典{key:weight,key2:weight2...};

S4.2、根据已构造的词典,将待输入的数据集进行关键词字典构造,输入进Gensim库中的LDA主题模型方法,进行主题建模,并将训练好的LDA主题模型进行保存;

S4.3、根据已保存的词向量模型和LDA主题模型,将预处理后的待消歧语句进行词向量化,和候选实体词向量一同输入进LDA主题模型,最终得到待消歧实体和候选实体的主题分布情况Vtopic=[(0,P1),(1,P2)]和Vtopic'=[(0,P1'),(1,P2')];

S4.4、根据步骤S4.3得到的主题分布情况计算上下文主题相似度,计算公式如下所示:其中Vi为待消歧实体的主题分布向量,V'i为候选实体的主题分布向量,Vm为待消歧实体主题分布向量的二范数结果,V'k为候选实体的主题分布向量的二范数结果;

S5、为充分理解上下文语义对于实体的影响和约束,将经人工标注的数据集作为训练集和验证集输入TextCNN模型进行训练,优化模型参数并保存模型,待有新的待消歧语句经处理后输入进模型则能方便得到语义特征相似度;具体包括:S5.1、将经人工标注的数据集作为训练样本,经过预处理提取全局关键词contexte={word1,word2,word3,...}和contextse={word1',word2',word3',...},利用word2vec模型向量化,分别得到该指称项的全局词向量矩阵[v1,v2,v3,...],[v1',v2',v3',...]输入神经网络模型中;

S5.2、对待消歧的上下文向量矩阵进行卷积操作,采用网络设定卷积核数量为128,filter高度为[2,3,4],每种filter卷积后得到[2,599,1,128]、[3,598,1,128]、[3,597,1,

128];

S5.3、在得到卷积结果后,利用1-max-pooling进行池化操作,输出得到变性后的卷积核特征[-1,384];

S5.4、将变性后的卷积核特征输入到全连接层,进行dropout,并对最终结果进行softmax函数处理,得到一个327纬文本语义特征向量;

S5.5、该模型中每个训练样本中损失函数定义如下所示:

其中,Xi代表了输出属于该候选实体的概率;

S5.6、该模型激活函数采用ReLU函数;

S5.7、该模型中的参数采用了梯度裁剪进行更新,首先计算梯度,这个计算类似L2正则化计算w的值,也就是求平方再平方根,然后与clip裁剪值进行比较,如果小于等于clip,梯度不变;如果大于clip,则计算公式如下:gnew=gold*(clip/gl2)   (4)

其中,gnew,gold代表新旧梯度值,gl2代表经L2正则化的梯度值,clip代表预先设定的裁剪值;

S5.8、将训练好的CNN模型进行保存;

S5.9、将待消歧上下文经预处理后通过词向量模型向量化,与候选实体向量一同输入进已训练好的CNN模型中进行语义特征提取,并最终得到代表上下文的语义特征向量;

S5.10、得到的待消歧语句和知识库候选实体语句的语义特征向量后,利用余弦相似度计算待消歧实体和候选实体的语义特征相似度;计算公式为:其中ai和bi分别为待消歧语句和候选实体语句词向量;

S6、根据步骤S4和S5中得到的主题特征相似度Sim1和语义特征相似度Sim2,利用权值归一化操作以最优方式融合两种特征相似度;具体包括:根据步骤S4和S5得到的主题特征相似度和语义特征相似度利用权值归一化操作以最优比例融合两种相似度为一种特征相似度,且当α=0.3,β=0.7时,最终消歧结果较优;融合公式下所示:sim(E,E')=Max(αsim1(E,E')+βsim2(E,E')) (6)其中α代表主体特征相似度所占比例,β代表语义特征相似度所占比例,Sim1,Sim2代表两种相似度函数,E代表待消歧实体,E'代表候选实体;

S7、取值最大的融合相似度对应的候选实体为最终消歧实体,即得到该实体在句中所代表的意思,并将消歧结果存储于文本文件中。

2.如权利要求1所述的融合主题模型和卷积神经网络的垂直域实体消歧方法,其特征在于:步骤S1.2所述的将提取的关键信息数据集进行预处理过程具体包括:T1、输入包含实体信息的上下文语句;

T2、利用分词系统将语句进行分词,和词性标注,提取出对理解句子语义有重要的作用的词,根据停词词库去除停用词;

T3、根据分词后得到的实体名称,在垂直实体文档中找到该实体对应的人工标注语句,获得实体序号,实体全称等信息;

T4、结合T2和T4所得到的重要字典信息,将对于消歧有帮助的重要信息进行保存,作为方便以后使用的知识库,保存格式:实体名称-实体序号-实体全称-实体语句。

3.如权利要求1所述的融合主题模型和卷积神经网络的垂直域实体消歧方法,其特征在于:步骤S1.3所述的易操作格式是序号-名称-上下文。