1.一种基于义原知识和抽象语义表征的复述语句识别方法,其特征在于,包括:S1:获取待识别的复述语句,对复述语句进行分词处理,获取每个词汇的义原知识;
S2:将词汇和义原知识分别进行向量表征,得到词汇级向量表征和词汇级义原向量表征;
S3:获取待识别复述语句的全局语义信息,对词汇级义原向量表征进行均值处理和全局语义信息融合,得到全局义原向量表征;
S4:对待识别复述语句进行抽象语义解析得到单根有向无环图,使用全局语义向量和词汇级向量分别表征单根有向无环图;
S5:分别根据单根有向无环图顺序采用自注意力机制对单根有向无环图中的词汇节点提取词汇级局部特征信息;采用双向门控循环神经网络对单根有向无环图中的词汇节点提取句子级全局特征信息;
S6:将提取的所有词语级局部特征信息进行融合,将所有的句子级全局特征信息进行融合,将融合后的词语级局部特征信息和融合后的句子级全局特征信息进行拼接,得到识别结果。
2.根据权利要求1所述的一种基于义原知识和抽象语义表征的复述语句识别方法,其特征在于,将分词结果和义原知识分别进行向量表征的过程包括:采用预训练的词向量对词汇进行表征,得到词汇级向量表征;对义原知识进行解析,得到每个字或者词的义原解析结果;义原解析结果为一个三维矩阵,其中第一维表示语句分词长度,第二维表示规定的每个词的义原数量,第三维表示每一个义原的向量表征;分词表征为二维矩阵,其中第一维表示语句分词长度,第二维表示每一个词汇的向量表征。
3.根据权利要求2所述的一种基于义原知识和抽象语义表征的复述语句识别方法,其特征在于,义原知识进行解析的过程包括:初始化实例对象hownet,根据实例对象hownet所携带的属性方法获取目标词汇的所有义原知识解析结果;其中义原知识解析结果中一个词汇的义原知识包含多个义项,每个义项包含多个义原,将该词汇的所有义原知识作为该词汇的义原知识集合。
4.根据权利要求1所述的一种基于义原知识和抽象语义表征的复述语句识别方法,其特征在于,对词汇级义原向量表征进行均值处理和全局语义信息融合的过程包括:步骤1、采用双向门循环单元神经网络对待识别复述语句进行全局语义信息提取;
步骤2、采用均值法对词汇级义原向量表征进行均值计算,得到单个词汇的义原向量表征;
步骤3、采用交互注意力机制对全局语义信息和单个词汇的义原向量表征进行融合,得到全局义原向量表征。
5.根据权利要求1所述的一种基于义原知识和抽象语义表征的复述语句识别方法,其特征在于,对待识别复述语句进行抽象语义解析并表征的过程包括:步骤1、采用自然语言解析工具对句子进行抽象语义解析,得到句子的单根有向无环图;
步骤2、采用全局义原向量表征的特征信息对单根有向无环图进行语义表征,得到全局义原向量表征的单根有向无环图;采用词汇级向量表征的特征信息对单根有向无环图进行语义表征,得到词汇级向量表征的单根有向无环图。
6.根据权利要求1所述的一种基于义原知识和抽象语义表征的复述语句识别方法,其特征在于,得到词汇级的局部特征信息和句子级的全局特征信息的过程包括:对全局义原向量表征的单根有向无环图和词汇级向量表征的单根有向无环图均提取局部特征信息、全局特征信息。使用自注意力机制将无环图词语顺序自身的查询向量Q、值向量K以及属性值向量V进行计算,得到词汇级局部特征信息;将无环图词语按照的顺序输入到双向门控循环单元神经网络中,得到句子级全局特征信息。最终结果包括:全局义原向量表征的全局特征信息、全局义原向量表征的局部特征信息、词汇级向量表征的全局特征信息、词汇级向量表征的局部特征信息。
7.根据权利要求1所述的一种基于义原知识和抽象语义表征的复述语句识别方法,其特征在于,得到拼接后的语义特征的过程包括:步骤1、采用Manhatan函数和Euclidean函数对所有的局部特征信息进行融合,得到融合后的词语级局部特征信息;
步骤2、采用余弦、差值以及乘法对所有的全局特征信息进行融合,得到融合后的句子级全局特征信息;
步骤3、采用前馈神经网络对融合后的词语级局部特征信息和融合后的句子级全局特征信息进行拼接融合,得到识别结果。
8.一种基于义原知识和抽象语义表征的复述语句识别系统,该系统用于执行权利要求
1~7所述的任意一种基于义原知识和抽象语义表征的复述语句识别方法,该系统包括:文本获取单元、文本分词单元、文本表征单元、义原知识融合单元、抽象语义表征单元、局部特征提取单元、全局特征提取单元、特征融合单元及前馈神经网络单元;
所述文本获取单元用于获取待检测的复述语句,并将其发送给文本分词单元;
所述文本分词单元用于对复述语句进行分词处理,得到复述语句中的词汇;
所述文本表征单元用于分词之后的词汇进行文本表征,其中分别使用词级的预训练词向量、义原级的预训练向量进行表征;
所述义原知识融合单元通过外部义原知识对词汇级向量表征进行全局义原向量表征;
所述抽象语义表征单元用于对融合义原知识表征的向量结果进行抽象语义解析,并使用全局义原向量与词汇级向量分别进行表征;
所述局部特征提取单元用于根据所述抽象语义表征单元获取的单根有向无环图进行局部语义特征提取;
所述全局特征提取单元用于根据所属抽象语义表征单元获取的单根有向无环图进行全局特征信息提取;
所述特征融合单元用于对局部特征和全局特征进行拼接,并采用多角度距离度量公式度量拼接后的语义特征的空间;
所述前馈神经网络单元用于对语义特征的空间进行复述识别,得到识别结果。
9.根据权利要求8所述的一种基于义原知识和抽象语义表征的复述语句识别系统,义原知识融合单元对词汇向量表征进行全局义原向量表征的方式包括两部分,第一部分为对词汇的义原向量表征进行均值处理得到单个词汇的义原表征;第二部分使用当前语句的全局语义信息进行融合得到全局义原义原向量表征。