1.一种突显核心内容的文本自动摘要方法,其特征在于,包括如下步骤:(一) 将数据集中的文本合并成一个文档,进行分词处理,生成词汇表;
(二)进行关键信息获取,具体分步骤如下:
(1)对数据集中的单个文本进行分词处理,对经过分词处理后的单词进行向量化表示得到词向量;
(2)将得到的每个文本的全部词向量按顺序输入一个由双向的循环神经网络构成的编码器,得到输入每个词后的文本状态向量;其中,最后一个状态向量代表该文本的状态向量;
(3)利用自注意机制将编码器的状态向量互相匹配,求得各个状态向量的注意力分布,以分配不同的焦点权重;将得到的权重对状态向量进行加权和计算,得到关键信息向量;
(三)进行双注意指针网络摘要生成,具体分步骤如下:
(1)将所述输入文本的状态向量输入一个由单向的循环神经网络构成的解码器进行解码,得到摘要文档的第一个状态向量;
(2)将得到的摘要文档的第一个状态向量、覆盖向量和输入文本的状态向量一起进行软注意计算,得到原始文本所有单词的软注意力分布,以分配不同的焦点权重;所述覆盖向量来自解码器先前的状态向量对应的所有注意力权重的总和,如果是第一个状态向量,则覆盖向量为0;
(3)将得到的权重对编码器的状态向量进行加权和计算,得到上下文信息向量;
(4)将上下文信息向量和所述的关键信息向量通过门机制进行融合,得到混合信息向量;
(5)将混合信息向量与摘要文档的第一个状态向量进行拼接,做两层线性变换,得到一个词汇表长度大小的一维向量;
(6)将得到一维向量和软注意力分布的权重通过门机制和指针网络进行融合与扩展,获取词汇表和文本中词汇表之外词构成的词典中的每个词成为摘要信息的概率,选择其中概率最高的词作为所得摘要的第一个生成词;
(7)将得到的所述第一个生成词和得到的摘要文档的第一个状态向量输入到解码器中,重复分步骤(1)到分步骤(6),得到摘要的第二个生成词和摘要文档的第二个状态向量;
将得到的新单词和得到该新的摘要文档的状态向量循环输入到上述的重复步骤中,直到摘要生成完毕。
2.根据权利要求1所述的突显核心内容的文本自动摘要方法,其特征在于,步骤(二)分步骤(2)中,所述文本的状态向量包括:将第i个所述词向量和第i-1所述词向量对应文本的状态向量输入到第i个循环神经网络模块中,经过第i个循环神经网络模块处理得到输入第i个词向量后文本的状态向量。
3.根据权利要求1所述的突显核心内容的文本自动摘要方法,其特征在于,步骤(二)分步骤(2)中,所述循环神经网络为LSTM是长短期记忆网络,虽然结构相同,但是参数不同。
4.根据权利要求1所述的突显核心内容的文本自动摘要方法,其特征在于,步骤(三)分步骤(1)中,所述循环神经网络为LSTM是长短期记忆网络,虽然结构相同,但是参数不同。
5.根据权利要求1所述的突显核心内容的文本自动摘要方法,其特征在于,步骤(三)分步骤(6)中,所述指针网络是将软注意力分布的权重作为指向输入单词的指针,不考虑输入元素,而是以概率的值作为指针指向输入元素的位置。