1.基于思维链及可视化提升上下文学习知识库问答方法,其特征在于,所述方法包括以下步骤:获取用户输入的需查询问题,在知识库中检索与所述需查询问题相似的示例;
对所述相似的示例和所述需查询问题一并利用思维链产生逻辑推理过程;
利用CodeGeex2模型学习所述逻辑推理过程后,生成需查询问题的逻辑形式;
获取所述用户勘误后的逻辑形式,在所述知识库中对需查询问题进行知识抽取、实体绑定与关系绑定,利用多数票策略来确定需查询问题的答案,并将所述答案输出给用户。
2.根据权利要求1所述的基于思维链及可视化提升上下文学习知识库问答方法,其特征在于,所述勘误后的逻辑形式的获取方式包括:在所述生成需查询问题的逻辑形式的步骤之后,向用户输出所述逻辑形式以及与所述逻辑形式对应的自然语言;
基于所述逻辑形式对应的自然语言和所述用户输入的需查询内容二者的逻辑差异,响应于所述用户根据逻辑差异对所述逻辑形式进行的修改与校正,将所述修改与校正后的逻辑形式作为勘误后的逻辑形式并输出。
3.根据权利要求2所述的基于思维链及可视化提升上下文学习知识库问答方法,其特征在于,所述获取用户输入的需查询问题,在知识库中检索与所述需查询问题相似的示例的步骤包括:对用户输入查询的自然语言使用Skip‑Gram模型进行词向量编码,并利用OpenMatch‑v2检索器进行检索,检索选出与输入查询问题相关的示例对 、..... ,其中,表示知识库中选出的问题,表示问题 所对应的答案。
4.根据权利要求3所述的基于思维链及可视化提升上下文学习知识库问答方法,其特征在于,所述利用CodeGeex2模型学习所述逻辑推理过程后,生成需查询问题的逻辑形式的步骤包括:利用大预言模型CodeGeex2的上下文学习能力,为检索器检索的示例问题 生成逻辑形式模板,利用实体名称替代逻辑形式中的机器标识符;
将模型CodeGeex2生成的以机器标识符形式存在的模板一一还原为对应的自然语言,并向用户输出所述逻辑形式以及与所述逻辑形式对应的自然语言。
5.根据权利要求4所述的基于思维链及可视化提升上下文学习知识库问答方法,其特征在于,所述在知识库中对需查询问题进行实体抽取、实体绑定与关系绑定,利用多数票策略来确定需查询问题的答案的步骤包括:利用联合抽取方法抽取用户查询中的实体、实体关系以及实体属性,并进行实体对齐,使其对于异构知识库中的实体,找出属于显示世界中的同一类实体;
依据抽取出的实体在知识库中进行模糊搜索,得到候选实体,根据候选实体和用户查询问句在符号层面的相似性,以及相应多跳规则约束,对候选实体进行进一步的筛选,得到查询的实体链接结果;
基于检索到的示例对,利用每一个示例对样例与原始查询一起作为搜索查询,从整个知识库中整合检索出最相似的项目;保留关系相似度较高的前k个项目,并筛选掉不符合约束关系的其余项目;对于每个机器标识符组成的逻辑形式,遍历所有的k个保留下来的关系候选项;
对于相关的逻辑形式和它们相应的答案,将这些项目重复执行n次,并采用多数票策略来决定需查询问题的答案。
6.根据权利要求3‑5任一所述的基于思维链及可视化提升上下文学习知识库问答方法,其特征在于,所述利用OpenMatch‑v2检索器进行检索,检索选出与输入查询相关的示例对的步骤包括:使用双编码器框架来训练密集检索模型:
对来自预训练的语言模型初始化编码器,让知识库中随机示例对 成为训练集,其中 是输入问题, 是与问题语义相关的段落;
将问题 和段落 输入T5编码器,并将编码器的均值池作为输出,将问题和段落编码成Em‑beddings,将输出嵌入层的大小固定为768;
使用批量采样softmax loss来训练模型,其损失函数计算如下:其中,j是一个索引,表示对所有可能的类别进行求和;相似性评分函数 是 和 的入之间的余弦相似性;是迷你批次的示例,是softmax温度,对于输入问题 ,可以给出额外的否定词 ,计算损失时,将它们计入分母:其中,负样本 指的是与预测目
标不符的样本;
使用双向批量采样软性最大损失法:
计算问题到文档匹配和文档到问题匹配的损失;
采样方法的基本目标是求解某个函数 在某个特定概率 的期望值E;
即 ;
从概率分布 中采样个点,组成样本集合 ;
这些点的统计属性服从概率分布 ;
然后估计 的期望值,即为:
。
7.根据权利要求4或5所述的基于思维链及可视化提升上下文学习知识库问答方法,其特征在于,所述利用大预言模型CodeGeex2的上下文学习能力,为检索器检索的示例问题生成逻辑形式模板,利用实体名称替代逻辑形式中的机器标识符的步骤包括:生成预训练目标:
通过采用GPT范式,在大量无标记代码数据上训练模型;
迭代地将代码标记作为输入,预测下一个标记,并将其与地面实况进行比较,对于任何长度为n的输入序列 ,x指输入长序列中的一个词或一个字符,CodeGeeX2的输出是下一个标记的概率分布 ,其中, 代表模型的所有参数,代表词汇量,通过将其与真实分布进行比较,优化累积交叉熵损失: ,其中,大N为总类别数,所述真实分布为真实标记的单击向量 ;
顶部查询层:
原始的GPT模型使用池器函数获得最终输出,CodeGeeX2在所有其他转换层之上使用了一个额外的查询层,顶层查询层的输入用n+1位置的查询嵌入替换查询输入 ,最终输出乘以词嵌入矩阵的转置,得到输出概率;
解码生成模板:
对于所查询到的top‑k层输出,将其解码为机器标识符,用来标记某个实体的标识符,将实体名称替代其标识符名称。
8.根据权利要求5所述的基于思维链及可视化提升上下文学习知识库问答方法,其特征在于,所述利用联合抽取方法抽取用户查询中的实体、实体关系以及实体属性,并进行实体对齐,使其对于异构知识库中的实体,找出属于显示世界中的同一类实体的步骤包括实体抽取、关系抽取和事件抽取;
所述实体抽取包括:
分词:将文本分割成一个个单独的词语;
词性标注:确定每个词语的词性;
命名实体识别:在分词和词性标注的基础上,通过模型或规则来识别文本中的命名实体;
实体分类:对于已经识别出来的命名实体,进行分类;
关系抽取:在已经确定了实体之间的关系后,进一步抽取出实体之间的关系;
所述关系抽取包括:
输入条子文本,先用实体抽取器识别出输入条子文本中的各个实体,然后对抽取出来的实体每两个进行组合,再加上原文本句子作为关系识别器的输入,进行两输入实体间的关系识别;
所述事件抽取包括:
表示训练样本,在基于特征的方法中提取和构建特征向量;
选择分类器并训练模型,优化模型参数;
使用训练好的模型从未标明的数据中提取事件实体。
9.根据权利要求8所述的基于思维链及可视化提升上下文学习知识库问答方法,其特征在于,所述依据抽取出的实体在知识库中进行模糊搜索,得到候选实体,根据候选实体和用户查询问句在符号层面的相似性,以及相应多跳规则约束,对候选实体进行进一步的筛选,得到查询的实体链接结果的步骤包括构建同义词表、构建缩写全称映射表、构建别名词表、基于编辑距离召回实体和基于词向量相似性召回实体;其中:所述构建同义词表包括:
确定目标领域和语料库,根据用户输入的查询构建同义词表的目标领域,选择合适的语料库作为挖掘种子;
挖掘新的同义词,用基于预训练词向量计算词语间的相似度;
判断是否为同义词对,在挖掘到新的候选同义词后,判断它们是否真正是同义词对;
所述构建缩写全称映射表包括:对于人名,名字扩展成为全称;对于大写缩写,根据库中实体核对首字母;对于地名,根据地名表扩展;
所述基于编辑距离召回实体包括:
预处理:从知识库中收集所有实体及其同义词,对实体和同义词进行预处理,删除停顿词、标点符号和特殊字符;
标记化:将输入的查询词标记为单词;
编辑距离计算:采用Jaro‑Winkler距离算法计算实体/同义词之间的编辑距离;
排序:根据编辑距离得分对实体/同义词进行排序;
筛选:筛选出编辑距离得分超过一定阈值的实体/同义词;
输出:根据编辑距离得分,返回前k个实体/同义词的编辑距离得分;
所述基于词向量相似性召回实体包括:
需要使用词向量模型来训练词向量,将每个词语映射到一个高维空间中的一个向量,利用词语的向量来计算词语之间的相似度;
当需要召回与某个实体相关的其他实体时,计算这个实体对应的词语与语料库中所有其他词语的相似度,将相似度最高的若干个词语作为召回结果。