1.一种文章截断点的设定方法,其特征在于,包括:
将文章中的每个句子输入bert模型得到每个句子对应的多个词向量,并用词向量序列形式输入到双向长短期记忆网络中得到每个句子对应的第一句向量和第二句向量,其中所述第一句向量为按照所述词向量序列依次拼接而成,所述第二句向量为按照反序的所述词向量序列依次拼接而成;
将每个句子的所述第一句向量的末端与所述第二句向量的首端拼接,得到每个句子的目标向量;
从所述文章中选取目标句子,并将文章的首端至所述目标句子末端的每一个句子对应的目标向量进行加权和计算得到第一向量,将所述目标句子末端至所述文章末端的每一个句子对应的目标向量进行加权和计算得到第二向量;其中,所述第一向量的维度等于所述第二向量的维度;
将所述目标句子对应的第一向量和第二向量进行相似度计算,将计算得到的第一相似度值再进行sigmoid非线性映射至(0,1)区间,求出与1的线性距离;
将所述线性距离与设定阈值比较,当所述线性距离高于设定阈值时,将所述目标句子的末尾位置作为初始截断点。
2.如权利要求1所述的文章截断点的设定方法,其特征在于,所述将所述目标句子对应的第一向量和第二向量进行相似度计算,将计算得到的第一相似度值再进行sigmoid非线性映射至(0,1)区间,求出与1的线性距离的步骤,包括:通过公式 计算所述第一相似度值,
其中, 为所述第一相似度值,表示第一向量,表示第二向量,
表示第一向量的第i维, 表示第二向量的第i维;
通过公式 计算非线性映射至(0,1)区间
的映射值;
根据所述映射值求出与1的所述线性距离。
3.如权利要求1所述的文章截断点的设定方法,其特征在于,所述将所述线性距离与设定阈值比较,当所述线性距离高于设定阈值时,将所述目标句子的末尾位置作为初始截断点的步骤之后,还包括:获取每个所述初始截断点至所述文章首端的第一文本距离,以及至所述文章末端的第二文本距离;
根据公式 计算每个所述初始截断点的位置分值,其中所述K为位置分值,X为所述第一文本距离,Y为所述第二文本距离;
根据各所述初始截断点对应的所述第一相似度值以及所述位置分值,从所述初始截断点中选取预设个数的目标截断点对所述文章进行截断。
4.如权利要求3所述的文章截断点的设定方法,其特征在于,所述根据各所述初始截断点对应的所述第一相似度值以及所述位置分值,从所述初始截断点中选取预设个数的目标截断点对所述文章进行截断的步骤,包括:将所有所述初始截断点构成的集合记为第一集合;
从所述第一集合中选取所述预设个数的初始截断点构成的集合记为第二集合;
通 过计 算 公 式 计 算各 第 二 集 合的 得 分 值 ;其 中所 述 计 算 公 式 为w和m分别为预设的权重参数;h1,h2,…,hn为所述第二集合中的元素对应的第一相似度值;ΔRi为第i组从第二集合中挑选出的两个元素对应的第一相似度值之差;n表示第二集合中元素的个数,F(n)表示得分值;
选取所述得分值最高的所述第二集合,并将该集合中的初始截断点作为所述目标截断点。
5.如权利要求3所述的文章截断点的设定方法,其特征在于,所述根据各所述初始截断点对应的所述第一相似度值以及所述位置分值,从所述初始截断点中选取预设个数的目标截断点对所述文章进行截断的步骤之前,还包括:将所述文章中每个句子的所述第一句向量进行拼接得到所述文章的文章向量;
根据所述文章向量的维度在预设的列表中查找对应所述目标截断点的所述预设个数;
其中,所述预设的列表中包含了所述文章向量的维度与所述目标截断点的所述预设个数的对应关系。
6.如权利要求1所述的文章截断点的设定方法,其特征在于,所述将文章中的每个句子输入bert模型得到每个句子对应的多个词向量,并用词向量序列形式输入到双向长短期记忆网络中得到每个句子对应的第一句向量和第二句向量的步骤,包括:将所述句子进行预处理,并按照所述句子在所述文章中的位置建立TOKEN列表对所述句子的位置进行记录,其中所述预处理包括剔除所述问题中的标点符号、统一语种、删除不相关词句,所述不相关词句包括问候语、形容词以及脏词;
通过所述bert模型读取数据集的文本数据,并通过所述bert模型fine-tuning的方式构建所述词向量,其中所述bert模型基于词语数据库训练而成;
将所述词向量按照在所述句子中的先后顺序构成所述词向量序列,并根据所述词向量序列依次拼接构成第一句向量,以及反序依次拼接构成第二句向量。
7.如权利要求1所述的文章截断点的设定方法,其特征在于,所述将所述线性距离与设定阈值比较,当所述线性距离高于设定阈值时,将所述目标句子的末尾位置作为初始截断点的步骤之后,包括:计算每个初始截断点相邻两个句子的目标句向量的第二相似度值;
将所述第二相似度值小于预设相似度值的所述初始截断点提取出来作为第一截断点;
通过预设的规则在第一截断点中筛选出目标截断点,并通过所述目标截断点对所述文章进行截断。
8.一种文章截断点的设定装置,其特征在于,包括:
向量化模块,用于将文章中的每个句子输入bert模型得到每个句子对应的多个词向量,并用词向量序列形式输入到双向长短期记忆网络中得到每个句子对应的第一句向量和第二句向量,其中所述第一句向量为按照所述词向量序列依次拼接而成,所述第二句向量为按照反序的所述词向量序列依次拼接而成;
向量拼接模块,用于将每个句子的所述第一句向量的末端与所述第二句向量的首端拼接,得到每个句子的目标向量;
加权和计算模块,用于从所述文章中选取目标句子,并将文章的首端至所述目标句子末端的每一个句子对应的目标向量进行加权和计算得到第一向量,将所述目标句子末端至所述文章末端的每一个句子对应的目标向量进行加权和计算得到第二向量;其中,所述第一向量的维度等于所述第二向量的维度;
第一相似度值计算模块,用于将所述目标句子对应的第一向量和第二向量进行相似度计算,将计算得到的第一相似度值再进行sigmoid非线性映射至(0,1)区间,求出与1的线性距离;
初始截断点设定模块,用于将所述线性距离与设定阈值比较,当所述线性距离高于设定阈值时,将所述目标句子的末尾位置作为初始截断点。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。