1.一种基于残差结构和双向融合注意力的跨度提取阅读理解方法,其特征在于,包括以下步骤:定义 个词的文章为 ,含有 个词的问题为 ;
把问题 和文章 通过分词器,并把它们拼接为定长的序列;
把拼接好的定长的序列输入到多层Transformer结构的编码器端,得到输出向量 ;
将所述输出向量 按照问题和文章的长度分成问题序列 和文章序列 ;
采用不同大小的卷积核,分别对文章和问题进行不同语义空间下的特征提取,得到局部表示向量 和 :通过注意力机制计算局部表示的相似度矩阵 :选取第 个文章单词和第个问题单词相似度最大值构成最显著的相似度分数矩阵 ;
通过双向融合注意力机制,得到基于问题的文章表示 和基于文章的问题表示 ;将基于文章的问题表示 和经过门机制得到的基于问题的文章表示 拼接表示为拼接向量 ;
把经过注意力机制后得到的拼接向量 ,记为细粒度向量,模拟人类精读时的效果,把从编码器端得到的输出向量 序列记为粗粒度向量,模拟人类略读时的结果;采用跳跃连接将粗粒度向量 与细粒度向量 构成残差结构,输出得到包含粗细两种粒度的语义向量;
将语义向量 输入全连接层得到每个单词的start logit和end logit;用粗粒度向量中每个序列的句向量获取class logit;进行训练,且在在训练的过程中,用交叉熵损失函数作为训练目标;
对于问题的可回答性,通过训练一个分类任务,赋予每个问题一个可回答分数;问题的可回答性是二分类任务,在训练的过程中采用二分类的交叉熵损失函数 ;
得到分类分数 ;
得到跨度提取的分数 ;
所述 和 加和取均值得到最终的问题可回答性分数,如果该分数高于阈值,则认为问题有答案,并把得到的跨度预测赋予该问题;相反,如果小于,则问题不可回答。
2.根据权利要求1所述的一种基于残差结构和双向融合注意力的跨度提取阅读理解方法,其特征在于,其中,把问题 和文章 通过分词器,并把它们拼接为定长的序列,还包括:起始位置用[CLS]来标识;
和 之间用标识符[SEP]隔开;
的结尾同样用[SEP]标识;
如果序列过长则截断;
如果序列没有达到定长,则用[PAD]补齐。
3.根据权利要求1所述的一种基于残差结构和双向融合注意力的跨度提取阅读理解方法,其特征在于,所述编码器端为ALBERT模型。
4.根据权利要求1所述的一种基于残差结构和双向融合注意力的跨度提取阅读理解方法,其特征在于,所述多层Transformer结构中输入有带有编码特征的向量序列;
所述多层Transformer结构中的每一层均包括有两部分,一部分是多头注意力,另一部分是前馈层。
5.根据权利要求1所述的一种基于残差结构和双向融合注意力的跨度提取阅读理解方法,其特征在于,所述局部表示向量 和 分别表示为:;
其中, 大小的卷积核, ;
其中,Conv是卷积,Conv1D指一维卷积; 中,n和s指 的空间维度是n行s列,n是问题的长度,s是最大序列长度,在 的空间维度中,m代表文章的长度。
6.根据权利要求1所述的一种基于残差结构和双向融合注意力的跨度提取阅读理解方法,其特征在于,所述相似度矩阵 表示为:;
其中, ,表示第 个卷积核对应的相似度矩阵。
7.根据权利要求1所述的一种基于残差结构和双向融合注意力的跨度提取阅读理解方法,其特征在于,所述相似度分数矩阵 :;
其中, 。
8.根据权利要求1所述的一种基于残差结构和双向融合注意力的跨度提取阅读理解方法,其特征在于,所述 和 分别表示为:;
;
所述 和 拼接形成的拼接向量 表示为:。
9.根据权利要求1所述的一种基于残差结构和双向融合注意力的跨度提取阅读理解方法,其特征在于,所述语义向量 表示为:其中, 。
10.根据权利要求1所述的一种基于残差结构和双向融合注意力的跨度提取阅读理解方法,其特征在于,所述交叉熵损失函数 表示为:所述分类分数 表示为:
其中, 表示无答案的logit值, 表示有答案的logit值;
所述跨度提取的分数 表示为:
;
其中, 和 是问题对应每个单词的起止位置的概率。