1.一种基于上下文语义感知的抽取式文档自动摘要方法,其特征在于:抽取式文档自动摘要是以句子在文档中的重要程度来打分,本方法采用LDA主题模型与CNN卷积神经网络来提取文档中的深层次的语义信息并作为句子评分的依据,最终形成摘要,所述方法包含如下步骤:步骤1:对所给的初始文档进行预处理,具体步骤包括:
步骤1.1:对初始的文档进行分词、分句;
步骤1.2:根据步骤1.1所得到分词的结果,去除语气助词、副词、介词、连词这些自身并无明确意义的停用词;
步骤1.3:指定初始文档的主题数K,每个主题下的词的数量为V;
步骤1.4:指定超参数向量 的值,其中 的值为 范围中的随机值、的值为 中的随机值, 为K维向量, 为V维向量;
步骤2:根据步骤1.2中得到的预处理后的文档和步骤1.3中得到的主题数K、词数V以及步骤1.4中得到的超参数 带入公式(1),得到初始文档主题以及其概率分布:其中,zi表示经过步骤1预处理后的文档 中的第i个词对应的主题,m下标为文档编号,k下标为主题编号,0
步骤3:计算初始文档中的每一个句子与主题的相似度,具体步骤包括:步骤3.1:将步骤1.1中得到的分句的结果与步骤2中所得到的主题利用Bert模型转化为1*768维的向量,形式化描述为:Sentence=(x1,x2,…,x768),Topic=(y1,y2,…y768);
步骤3.2:将步骤3.1中得到的句子向量与主题向量用公式(2)计算相似度:其中,p为步骤1.1中分句后句子的数量,K为步骤1.3中所得的主题的数量;
步骤4:在文档的特征提取阶段,把文档的细粒度划分为句子级别和词语级别,然后使用预训练好的CNN模型对其进行卷积、最大池化,得到其第一级特征,卷积的结果作为第二层的输入,接着对其进行卷积、最大池化,得到其第二级特征,最后通过包含1024个神经元的全连接层,得到最终包含初始文档语义信息的特征向量;步骤4的特征提取过程,具体步骤包括:步骤4.1:定义文档中的句子序列表示为:Cs={S1,S2,…,Sp},其中p为句子的数量,定义文档中的词语序列表示为:Cw={W1,W2.…Wq},其中q为分词后的词语数量,根据公式(3)分别对其进行基于文档细粒度的卷积操作:其中,Ws,Ww分为Cs,Cw的卷积核,为2*768向量,bs,bw分别为Cs,Cw的偏置项,为2维的向量,其值在神经网络的预训练中得到,f(·)为tan(·)是激活函数;
步骤4.2:根据步骤4.1得到的结果,为了提升模型的泛化能力,防止过拟合,对其结果根据公式(4)进行最大池化操作:其中,xi,xn为Cons,Conw中的每个神经元, 为得到卷积的第一级特征;
步骤4.3:对 重复步骤4.1,4.2得到卷积的第二级特征
步骤4.4:将第二级特征 作为全连接层的输入,根据公式(5)得到最终的包含初始文档的上下文语义信息的特征向量:其中W为全连接层的权重,b为偏置值;
步骤5:根据公式(2),计算每一个句子与特征向量Feature的相似度,结合主题相似度,按相似度得分排序,取文档句子数量的20%的语句作为文档的摘要;具体步骤包括:步骤5.1:将步骤4.4中得到的特征向量Feature与步骤3.1中得到的句子向量利用公式(2)计算每一个句子与上下文语义特征的相似度;
步骤5.2:将步骤3.2中得到的句子与主题的相似度与步骤5.1中得到的句子与上下文语义的特征相似度利用公式(6)计算最终的每一个句子得分:步骤5.3:将每一个句子按步骤5.2中所得到的得分排序,按照得分的从高到低,取初始文档的句子总量的20%作为摘要。