1.基于词格和相对位置嵌入的中文问题生成统一预训练方法,其特征在于,使用了领域预训练和任务预训练,同时使用半监督半人工的方式生成领域词典。在任务预训练阶段首先将输入中的领域词汇索引记录在输入序列中位置的头和尾,并且将索引到的词汇拼接在输入序列之后。然后记录每个词和子之间的相对位置并输入到Unilm模型中最后一个自建的Transformer模块。最后的通过解码器解码得到生成的问题。具体包括如下步骤:步骤1,对Robert参数进行领域预训练;
步骤2,使用半监督半人工的方式,快速且准确的生成目标领域词典;
步骤3,构建特殊的mask矩阵,提高模型的生成能力;
步骤4,构建特殊的相对位置嵌入矩阵,根据步骤2中的词典将输入中字和词的相对位置信息融入Transformer层;
步骤5,新建的Transformer层,继承Robert模型第12层参数,通过大量开放域问答数据,进行任务预训练;
步骤6,生成问题的训练和推断。
2.根据权利要求1所述的基于词格和相对位置嵌入的中文问题生成统一预训练方法,其特征在于,所述步骤1具体步骤为:在领域预训练中模型的Transformer block初始参数取自Wiki百科语料训练的基础Robert,然后对互联网上爬取的领域信息文本进行模型预训练。预训练使用了Robert的双向遮盖预训练机制和全词遮盖机制。全词遮盖中的词典使用公开的开放领域词典,来适应预训练的需要。通过使用这两种机制,我们对模型的预处理进行了优化。
3.根据权利要求1所述的基于词格和相对位置嵌入的中文问题生成统一预训练方法,其特征在于,所述步骤2具体步骤为:为了更快的获取目标领域词典,本发明使用半监督半人工的方式加快词典生成效率。
首先人工选取目标领域的电子文档和开放领域的大规模词典,将目标领域文档输入命名实体识别深度学习模型,将模型识别的实体加入领域词典。然后通过基于规则的方式,将大规模开放领域的词在目标领域文本中进行索引,将索引存在的词加如目标领域词典。最后将形成的领域词典经过人工审查,形成最终的领域词汇词典。
4.根据权利要求1所述的基于词格和相对位置嵌入的中文问题生成统一预训练方法,其特征在于,所述步骤3具体步骤为:在模型的训练过程中,原始文本和目标问句被拼接,然后被送入模型进行训练。其中,文本中的前半部的token可以和前后两个方向的文本进行关注,后半部的token仅仅能够关注到左边的前半部文本。
5.根据权利要求1所述的基于词格和相对位置嵌入的中文问题生成统一预训练方法,其特征在于,所述步骤4具体步骤为:“相对位置嵌入”能将每个单字或词汇之间的位置关系加入到attention的计算之中,强化transformer中的注意力机制。因此本发明在任务预训练阶段对每个单字和词汇使用了相对位置编码。同时相对位置编码可以清晰的表达出每个词汇之间的位置信息。
6.根据权利要求1所述的基于词格和相对位置嵌入的中文问题生成统一预训练方法,其特征在于,所述步骤5具体步骤为:为了节省计算资源,和对较小人工标注数据集的适应,需要采用预训练模型的迁移方案来提供足够的常用百科知识和领域信息。因此,本发明将融入了词格和相对位置编码的Transformer层继承了经过步骤1进行领域预训练的Robert参数的最后一层,进行百科知识和领域知识的迁移。
由于本模型的参数较多且人工标注的问答数据往往较少,因此加入了任务预训练,通过从网络爬取的大量开放领域的问答数据,对模型进行任务预训练,增强模型在问题生成方面的能力。
7.根据权利要求1所述的基于词格和相对位置嵌入的中文问题生成统一预训练方法,其特征在于,所述步骤6具体步骤为:对于目标领域的问答文本使用替换过最后一层编码器模块并进行了任务预训练的Unilm语言模型进行训练,模型解码预测的结果将被用于和原始训练数据给定的问题进行交叉熵的计算,得到的梯度值将通过Adam优化器对模型进行优化训练。推断思路主要是采用了beam search技术。