1.一种基于语义增强知识图谱的检索增强生成方法,其特征在于,所述基于语义增强知识图谱的检索增强生成方法包括:获取原始文本文档;
根据从所述原始文本文档中提取到的实体信息和实体间关系信息,构建语义增强知识图谱,其中,所述语义增强知识图谱包括实体集合、实体间的关系集合、相关句子集合以及映射关系集合,所述相关句子集合是指与实体及实体间关系相关的句子集合,所述映射关系集合是指包含所述原始文本文档中的句子与目标对象的映射关系的集合,所述目标对象为知识图谱中的实体节点和关系边;
对所述语义增强知识图谱依次进行实体对齐处理,得到对齐后语义增强知识图谱;
利用大语言模型提取用户问题中出现的实体,得到包含若干个显式实体的显式实体集合;
根据所述显式实体集合,在所述对齐后语义增强知识图谱上进行子图扩展,得到包含所述显式实体和隐式实体的混合实体集合,其中,所述隐式实体是指用户问题涉及的但并未出现在用户问题中的实体;
根据所述混合实体集合从所述对齐后语义增强知识图谱中提取子图;
利用大语言模型判断所述子图中的实体信息和实体间关系信息能否回答用户问题,得到第一判断结果;
若所述第一判断结果为是,则将所述子图中的实体信息和实体间关系信息作为第一上下文信息,根据所述第一上下文信息和用户问题构建第一提示信息;
基于所述第一提示信息,利用大语言模型生成与用户问题对应的回答;
若所述第一判断结果为否,则从混合相关句子集合中提取相关实体信息,将所述相关实体信息以及所述子图中的实体信息和实体间关系信息作为第二上下文信息,根据所述第二上下文信息和用户问题构建第二提示信息,其中,所述混合相关句子集合为所述子图中与混合实体及混合实体间关系相关的句子集合;
基于所述第二提示信息,利用大语言模型生成与用户问题对应的回答。
2.根据权利要求1所述的基于语义增强知识图谱的检索增强生成方法,其特征在于,从所述原始文本文档中提取实体信息和实体间关系信息的过程,具体包括:对所述原始文本文档进行文档分割,得到包含若干文本块的文本块集合;
从所述文本块集合中提取所述实体信息和所述实体间关系信息;
所述文本块集合的构建过程,具体包括:
利用语言模型对所述原始文本文档进行句子分割,得到包含若干句子的句子集合;
利用分词模型计算所述句子集合中每个句子的Token数量;
将总Token数量不超过设定文本块大小的连续句子划分为一个文本块;
根据所有所述文本块构建文本块集合。
3.根据权利要求2所述的基于语义增强知识图谱的检索增强生成方法,其特征在于,根据从所述原始文本文档中提取到的实体信息和实体间关系信息,构建语义增强知识图谱,具体包括:根据所述文本块集合中的每一文本块构建文本块语义增强知识图谱;
合并所有所述文本块语义增强知识图谱,得到所述原始文本文档的所述语义增强知识图谱;
根据所述文本块集合中的每一文本块构建文本块语义增强知识图谱,具体包括:利用大语言模型从每一所述文本块中提取指定实体类型的实体信息和实体关系信息,其中,所述实体信息包括实体名称、实体类型和实体描述,所述实体关系信息包括源实体、目标实体、关系描述和关系依据;
根据提取到的指定实体类型的实体信息和实体关系信息,构建文本块实体集合和文本块实体间关系集合,其中,所述文本块实体间关系集合包含所述文本块实体集合中若干实体间关系;
利用大语言模型评估每一所述文本块中句子的信息量分数;
当所述信息量分数不小于信息量阈值且句子中出现的实体属于所述文本块实体集合时,建立句子和句子中出现的实体之间的映射关系;
根据句子和句子中出现的实体之间的映射关系,构建文本块文本内容与实体的映射关系集合;
当所述信息量分数不小于信息量阈值且句子来源于所述文本块实体间关系集合中的实体间关系时,建立句子和所述文本块实体间关系集合中的实体间关系之间的映射关系;
根据所述句子和所述文本块实体间关系集合中的实体间关系之间的映射关系,构建文本块文本内容与实体间关系的映射关系集合;
根据所述文本块文本内容与实体的映射关系集合和所述文本块文本内容与实体间关系的映射关系集合,确定文本块映射关系集合和文本块相关句子集合;
根据所述文本块实体集合、所述文本块实体间关系集合、所述文本块相关句子集合和所述文本块映射关系集合,构建所述文本块语义增强知识图谱。
4.根据权利要求3所述的基于语义增强知识图谱的检索增强生成方法,其特征在于,对所述语义增强知识图谱依次进行实体对齐和实体合并处理,得到对齐后语义增强知识图谱,具体包括:根据所述实体类型对实体进行预分类,得到包含若干个不同类型实体的实体类型集合;
对所述实体类型集合中相同类型的实体基于语义相似度进行聚类,得到聚类后实体集合;
利用大语言模型判断所述聚类后实体集合中聚类的实体是否为相同实体,得到第二判断结果;
若所述第二判断结果为是,则合并所述语义增强知识图谱中属于相同实体的实体节点。
5.根据权利要求1所述的基于语义增强知识图谱的检索增强生成方法,其特征在于,根据所述显式实体集合,在所述对齐后语义增强知识图谱上进行子图扩展,得到包含所述显式实体和隐式实体的混合实体集合,具体包括:将所述显式实体集合中的显式实体加入初始实体列表中;
利用嵌入模型对用户问题进行文本向量化,得到问题向量;
对于所述初始实体列表中的每一显式实体,遍历所述语义增强知识图谱确定邻居节点;
利用嵌入模型对邻居关系描述进行文本向量化,得到邻居关系描述向量,其中,所述邻居关系描述是指不在所述初始实体列表中的邻居节点与对应显式实体之间的关系描述;
计算所述问题向量和所述邻居关系描述向量之间的第一相似度;
若所述第一相似度大于第一相似度阈值,则将对应的邻居节点加入所述初始实体列表中,得到更新后实体列表;
将所述更新后实体列表作为新的初始实体列表,返回步骤“对于所述初始实体列表中的每一显式实体,遍历所述语义增强知识图谱确定邻居节点”,得到最终实体列表;
根据所述最终实体列表得到包含所述显式实体和隐式实体的混合实体集合。
6.根据权利要求1所述的基于语义增强知识图谱的检索增强生成方法,其特征在于,从混合相关句子集合中提取相关实体信息,具体包括:利用嵌入模型对所需实体信息和所述混合相关句子集合中的每个句子进行文本向量化,得到所需实体信息向量和句子向量,其中,所述所需实体信息是指所述第一判断结果为否的所述子图中的实体信息;
计算所述所需实体信息向量和所述句子向量之间的语义相似度;
根据所述语义相似度大于语义相似度阈值对应的句子构建目标句子集合;
利用大语言模型从所述目标句子集合中提取相关实体信息。
7.根据权利要求4所述的基于语义增强知识图谱的检索增强生成方法,其特征在于,对所述实体类型集合中相同类型的实体基于语义相似度进行聚类,得到聚类后实体集合,具体包括:利用嵌入模型对所述实体类型集合中相同类型实体的所述实体名称和对应的所述实体描述进行文本向量化,得到每一实体向量;
根据所述实体向量计算第二相似度;
对所述第二相似度高于第二相似度阈值的实体添加关联边,构建实体关系图;
提取所述实体关系图中的所有连通子图;
根据所述连通子图中包含的节点构建聚类后实体集合。
8.一种基于语义增强知识图谱的检索增强生成装置,其特征在于,所述基于语义增强知识图谱的检索增强生成装置包括:文档获取模块,用于获取原始文本文档;
语义增强知识图谱构建模块,用于根据从所述原始文本文档中提取到的实体信息和实体间关系信息,构建语义增强知识图谱,其中,所述语义增强知识图谱包括实体集合、实体间的关系集合、相关句子集合以及映射关系集合,所述相关句子集合是指与实体及实体间关系相关的句子集合,所述映射关系集合是指包含所述原始文本文档中的句子与目标对象的映射关系的集合,所述目标对象为知识图谱中的实体节点和关系边;
语义增强知识图谱处理模块,用于对所述语义增强知识图谱依次进行实体对齐处理,得到对齐后语义增强知识图谱;
子图构建模块,用于利用大语言模型提取用户问题中出现的实体,得到包含若干个显式实体的显式实体集合;根据所述显式实体集合,在对所述齐后语义增强知识图谱上进行子图扩展,得到包含所述显式实体和隐式实体的混合实体集合,其中,所述隐式实体是指用户问题涉及的但并未出现在用户问题中的实体;根据所述混合实体集合从所述对齐后语义增强知识图谱中提取子图;
判断模块,用于利用大语言模型判断所述子图中的实体信息和实体间关系信息能否回答用户问题,得到第一判断结果;若所述第一判断结果为是,则将所述子图中的实体信息和实体间关系信息作为第一上下文信息,根据所述第一上下文信息和用户问题构建第一提示信息;基于所述第一提示信息,利用大语言模型生成与用户问题对应的回答;若所述第一判断结果为否,则从混合相关句子集合中提取相关实体信息,将所述相关实体信息以及所述子图中的实体信息和实体间关系信息作为第二上下文信息,根据所述第二上下文信息和用户问题构建第二提示信息;基于所述第二提示信息,利用大语言模型生成与用户问题对应的回答,其中,所述混合相关句子集合为所述子图中与混合实体及混合实体间关系相关的句子集合。