1.基于实体相关注意力机制的实体关系联合抽取方法,其特征在于,包括以下步骤:S1:获取待处理文本;
S2:将待处理文本输入经过预先训练的实体关系联合抽取神经网络模型中;所述实体关系联合抽取神经网络模型首先识别所述待处理文本中的所有实体;然后将各个实体分别作为目标头实体去识别对应的目标尾实体;最后识别各个目标头实体与对应目标尾实体之间的关系,并根据目标头实体、目标尾实体和相应关系构建对应的三元组;
S3:输出所有的三元组。
2.如权利要求1所述的基于实体相关注意力机制的实体关系联合抽取方法,其特征在于:所述实体关系联合抽取神经网络模型包括编码模块;
所述编码模块首先对所述待处理文本进行编码,为所述待处理中的各个单词嵌入词向量;然后通过编码Bi‑LSTM捕捉编码后待处理文本的语义特征;最后根据所述编码Bi‑LSTM的最后一层隐藏状态生成上下文表示。
3.如权利要求2所述的基于实体相关注意力机制的实体关系联合抽取方法,其特征在于:所述编码Bi‑LSTM通过如下公式捕捉语义特征:式中:ei表示第i个单词嵌入的词表示; 表示编码Bi‑LSTM的最后一层隐藏状态,dh表示编码Bi‑LSTM的最后一层隐藏状态的维数; 表示全局表示的第i个特征表示,根据对所有最后一层隐藏状态的最大池化计算得到; 表示融合了hi和gi的上下文表示。
4.如权利要求2所述的基于实体相关注意力机制的实体关系联合抽取方法,其特征在于:所述编码模块通过如下步骤进行编码:首先对所述待处理文本进行分词和汇总得到若干个单词;然后给每个单词分配一个对应的单词ID,并将单词替换成对应的单词ID;最后为每个单词ID嵌入对应的词向量。
5.如权利要求2所述的基于实体相关注意力机制的实体关系联合抽取方法,其特征在于:所述实体关系联合抽取神经网络模型还包括候选头实体识别模块;
所述候选头实体识别模块将所述上下文表示作为输入;首先通过候选头实体Bi‑LSTM融合和学习所述上下文表示的内部信息,并输出对应的头实体上下文向量表示序列;再将所述头实体上下文向量表示序列输入候选头实体CRF层中,通过所述候选头实体CRF层输出对应的实体类型标签序列;
所述实体关系联合抽取神经网络模型根据所述实体类型标签序列识别得到所有的实体。
6.如权利要求5所述的基于实体相关注意力机制的实体关系联合抽取方法,其特征在于,所述候选头实体CRF层通过如下步骤输出实体类型标签序列:预测基于实体类型的所有候选类型标签序列;
通过如下公式计算各个候选类型标签序列的类型转移分数;
o={o1,o2,....,on};
p=oWp;
式中:p、v分别表示候选头实体CRF层的发射矩阵和转移矩阵,表示输出的头实体上下文向量表示序列; 表示候选头实体识别模块的模型参数;S(X,Y)表示单词到相应类型标签的类型转移分数,X表示单词,Y表示类型标签;
根据类型转移分数并结合如下公式计算各个候选类型标签序列的类型标签概率;
式中:p(Y|X)表示候选类型标签序列的类型标签概率;
YX表示所有的候选类型标签序列;
根据所述类型标签概率从所有候选类型标签序列中选取对应的实体类型标签序列。
7.如权利要求5所述的基于实体相关注意力机制的实体关系联合抽取方法,其特征在于,所述实体关系联合抽取神经网络模型根据实体类型标签序列并结合如下标注策略对实体进行标注:
将实体标注为T1‑T2;T1表示实体边界,分别用B、I、E表示实体的开始、中间和结尾,当实体只有一个单词时用S表示;T2表示头实体类型;非实体用O表示。
8.如权利要求5所述的基于实体相关注意力机制的实体关系联合抽取方法,其特征在于:所述实体关系联合抽取神经网络模型还包括多尾实体识别模块;
所述多尾实体识别模块将所述上下文表示和识别得到的所有实体作为输入;首先选取对应的实体作为目标头实体,并将对应实体开始处的上下文向量表示作为目标头实体的实体表示;再识别目标头实体对应的目标尾实体;然后通过多尾实体Bi‑LSTM融合、学习上下文表示和实体表示的内部信息,并输出对应的尾实体上下文向量表示序列;再将所述尾实体上下文向量表示序列输入多尾实体CRF中,通过所述多尾实体CRF输出对应的头实体和尾实体关系标签序列;
所述实体关系联合抽取神经网络模型根据所述头实体和尾实体关系标签序列识别得到目标头实体与对应目标尾实体的关系,并根据目标头实体、目标尾实体和相应关系构建对应的三元组。
9.如权利要求8所述的基于实体相关注意力机制的实体关系联合抽取方法,其特征在于:所述多尾实体识别模块通过如下步骤识别对应的目标尾实体:将所有实体作为候选尾实体;
通过如下公式计算各个候选尾实体与目标头实体的实体相关注意力;
T
eik=vtanh(Waai+Wggi);
式中:sk表示实体相关注意力; 都是可训练模型参数;
根据所述实体相关注意力并结合以下公式,过滤与目标头实体呈负相关的候选尾实体,并将剩余的候选尾实体作为目标头实体对应的目标尾实体;
uk=gk⊙tanh(W3sk+b3);
式中: 都是模型参数; 是凭借运算符;⊙是点乘运算符;σ表示sigmoid激活函数; 表示第i个单词在目标头实体为k的情况下的隐藏表示;整个文本表示成
10.如权利要求8所述的基于实体相关注意力机制的实体关系联合抽取方法,其特征在于:所述多尾实体CRF通过如下步骤输出头实体和尾实体关系标签序列:预测目标头实体和目标尾实体的所有候选关系标签序列;
通过如下公式计算各个候选关系标签序列的关系转移分数;
k k
式中:p、v分别表示多尾实体CRF的发射矩阵和转移矩阵; 表示输出的尾实体上下文向量表示序列; 表示多尾实体识别模块的模型参数; 表示单词到相应关系标签的关系转移分数,X表示单词,表示关系标签;
根据所述关系转移分数并结合如下公式计算各个候选关系标签序列的关系标签概率;
式中: 表示候选关系标签序列的标签概率; 表示所有的候选关系标签序列;
根据所述关系标签概率从所有候选关系标签序列中选取对应的头实体和尾实体关系标签序列。