1.一种基于规则嵌入的文本推断方法,其特征在于,该方法包括:
1)将描述用户需求的关键词逻辑表达式转化为等价的析取范式,用户需求是一条命题公式P,则P的析取范式为:
(1)
在公式(1)中, 表示合取规则的数量,ri为第i个用户规则;所述命题公式P中,联结词取自集合 ,项是一个关键词集合K,包含描述主题或语义相关的关键词及其同义词;依据范式存在定理,命题公式P一定能够转化为与之等价的析取范式, 是一条由关键词集合构成的简单合取式,即 ,其中 表示简单合取式 中项的个数,构成用户需求的所有简单合取式集合表示为 ,即为用户规则集,其中 表示合取规则的数量;
在本步骤中,所述析取范式的英文为Disjunctive Normal Form,缩写为DNF,所述析取范式具有处理用户需求变化的灵活性,通过增删简单合取式能够高效的适应用户需求的变更;
2)判定一个输入文本是否满足用户规则:利用语义逻辑网络依次对输入文本x进行项检测、合取规则检测和析取范式检测,最终判定一个输入文本是否满足用户规则;
所述一种基于规则嵌入的文本推断方法还包括,一路与所述语义逻辑网络平行设置的神经分类网络,所述神经分类网络用于:对输入文本进行类别预测,获得输入文本符合用户需求的概率,即预测结果;
对所述输入文本分别通过神经分类网络及语义逻辑网络分别进行推断,分别得到两者的预测结果;最后利用Jensen‑Shannon散度,简称JS距离,约束两者预测结果的一致性;
所述依次对输入文本x进行项检测、合取规则检测和析取范式检测的具体方法包括:
2‑1)项检测
项检测用于判定输入文本 是否包含析取范式中项 相关的语义;
输入为输入文本 ;
输出为检测结果记为 ,表示输入文本 包含项 的概率;
将输入文本 转化为对应的预训练词向量构成的矩阵:记为,其中 代表实数域,u是输入文本 的截断长度,d是预训练词向量的长度, 是词汇 对应的长度为d的向量;
将项 转化为向量形式:项 的向量为 对应关键词集合中,所有关键词对应的预训练词向量的均值,即 ,其中 是集合中的关键词, 是 对应预训练词向量;
将向量 与输入文本 的预训练词嵌入矩阵 通过矩阵乘法计算得到交互向量,记为 :
(2)
对输入文本 通过编码网络ENC进行语义编码后得到文本语义向量 ;
将文本语义向量 与交互向量 拼接,并经过多层感知机网络MLP进行降维,获得向量 ,即为输入文本 对项K的语义包含关系:(3)
经过 函数激活的值作为检测到输入文本 包含项 的概率,即推断结果,该概率表示输入文本 对项 对应关键词集合语义的满足程度:(4)
是语义逻辑网络预测输入文本x包含项 的概率,所述向量 还作为下一阶段合取规则模块的输入; 表示 激活函数, 是网络参数;
使用交叉熵损失函数来评估推断结果 与真实结果 分布之间的差异性,求得损失:
(5)
其中, 是项的真实标签,通过文本与关键词的字符串匹配检测和同义词扩充的方式获得; 表示训练集合样本期望;M是关键词集合的个数;训练过程通过最小化损失 以更新项检测网络中的所有参数; 表示使用 范数来对项检测网络的参数进行正则化;
2‑2)合取规则检测
合取规则检测用于验证输入文本 是否满足合取规则 的语义;
输入为:步骤2‑1)的项表示向量 ;
输出为:预测输入文本包含合取规则 的概率;
合取规则嵌入网络 ,合取规则 包含的项构成序列 ,其对应项检测获得的项的表示向量构成序列 ,将序列中所有向量拼接作为输入,经过 获得合取规则的表示向量 :
(6)其中, 表示 的所有项构成的序列;
经过 函数激活得到合取规则的检测概率,公式(7)所示,其中 表示激活函数, 是网络参数, 是输入文本包含合取规则 的概率,即推断结果: (7)采用交叉熵损失函数来衡量预测结果 与真实结果 的差异,求损失 ,其中 是规则的真实标签,通过相关项标签的布尔值的合取运算获得; 表示训练集合样本期望;训练过程通过最小化损失 以更新UNet和合取规则检测模块中的所有参数, 表示使用范数来对UNet和合取规则检测模块中的所有参数进行正则化:(8)
2‑3)析取范式检测
析取范式检测用于验证输入文本 是否满足完整的用户规则集;
输入为:步骤2‑2)中的合取规则表示向量 和其他相关的合取规则表示向量;
输出为:预测输入文本满足用户规则集的概率;
采用max函数来实现析取网络 :将步骤2‑2)所述推断结果中最大的概率作为文本推断结果,其中 是预测输入文本满足用户规则集的概率, 表示取最大概率的函数,表示合取规则检测模块输出的推断结果:(9)
采用交叉熵损失函数,求损失 ,如公式(10)所示,其中 是输入文本的真实标签,由专家标注文本是否满足用户需求,表示训练集合样本期望,训练过程通过最小化损失以更新语义逻辑网络的所有参数, 表示使用 范数来对语义逻辑网络的参数进行正则化:
(10)。
2.根据权利要求1所述的一种基于规则嵌入的文本推断方法,其特征在于,所述神经分类网络的处理方法包括:
通过文本编码模块构造输入文本的语义向量,此处采用的文本编码网络为ENC2;
通过文本编码模块获得输入文本的语义表示向量后,基于语义表示向量进行类别预测,公式(11)所示, 表示神经分类网络预测输入文本符合用户需求的概率,此处的 是输出文本级标签 , 表示 激活函数, 是网络参数: (11)用交叉熵损失函数衡量神经分类网络的预测结果 与真实结果 之间的差异性,公式(12)所示,得到损失 ,通过最小化损失 以更新神经分类网络的所有参数,其中 是输入文本的真实标签,由专家标注文本是否满足用户需求, 表示训练集合样本期望, 表示使用 范数来对神经分类网络的所有参数进行正则化: (12)
对所述输入文本分别通过神经分类网络及语义逻辑网络分别进行推断,分别得到两者的预测结果,最后利用Jensen‑Shannon散度,简称JS距离,约束两者预测结果的一致性。
3.根据权利要求2所述的一种基于规则嵌入的文本推断方法,其特征在于,采用JS距离度量神经分类网络与语义逻辑网络的预测结果分布之间的相似度,记神经分类网络输出的概率分布为 ,语义逻辑网络输出的概率分布为 ,则两者的JS距离的计算公式为:
(13)
将JS距离作为联合损失中的正则项,联合损失 的计算如公式(15),其中,超参 用于权衡不同损失项, 取值范围是(0,1),且满足约束条件, 为公式(12)所示的损失函数, 为公式(10)所示的损失函数: (15)
通过最小化联合损失 以更新神经分类网络和语义逻辑网络的所有参数。
4.一种实现如权利要求1‑3任意一项所述文本推断方法的装置,其特征在于,包括:语义逻辑网络模块;
语义逻辑网络模块用于:判定一个输入文本是否满足用户规则;所述语义逻辑网络模块包括:沿数据流方向依次设置的项检测模块、合取规则检测模块、析取范式检测模块。
5.如权利要求4所述装置,其特征在于,还包括,一路与所述语义逻辑网络模块平行设置的神经分类网络模块;
所述神经分类网络用于:对输入文本进行类别预测,获得输入文本符合用户需求的概率,即预测结果;
对所述输入文本分别通过神经分类网络及语义逻辑网络分别进行推断,分别得到两者的预测结果,最后利用Jensen‑Shannon散度约束两者预测结果的一致性。