1.基于实体关系级别注意力机制的事件检测方法,其特征在于包括如下步骤:步骤1、对原始文本中的单词和实体关系进行编码,分别获取词汇级别向量序列和实体关系级别向量序列;
步骤2、将步骤1的词汇级别向量序列输入依存Tree‑LSTM,获取句子的词汇级别表示;
步骤3、将步骤1的实体关系级别向量序列输入双向LSTM,获取实体关系级别表示;
步骤4、利用词汇级别注意力机制获取句中第i个单词对第t个候选触发词的影响权重将句中的词汇级别表示加权平均,获取句子完整的语义信息步骤5、利用实体关系级别注意力机制获取句中第j个实体关系对第t个选触发词的影响权重 将句中每个实体关系级别表示加权平均,获取句中完整的实体关系信息步骤6、针对第t个候选触发词,对语义信息 实体关系信息 根节点词汇级别表示以及候选触发词的词汇级别表示 进行拼接,然后进行触发词识别和分类。
2.根据权利要求1所述的基于实体关系级别注意力机制的事件检测方法,其特征在于步骤1具体实现如下:
1‑1.从KBP 2017英文数据集标注文件中获取实体提及、实体类型、实体关系、事件触发词;利用Stanford CoreNLP工具对数据集中原始文本进行分句、分词以及获取单词的词性和每个句子的依存树结构;然后创建词性向量表、实体类型向量表、实体关系向量表以及触发词类型向量表,其中在每个向量表中定义”空”类型对应的向量;随机初始化这些向量,在训练的时候更新这些向量;
1‑2.首先查询预训练的Glove词向量矩阵、词性向量表、实体类型向量表;分别获取句子中每个词的词向量wi、词性向量wpos、实体类型向量we;然后查询实体关系向量表,获取句子中出现的每个实体关系对应的向量r;
1‑3.每个单词真值向量为xi={wi,wpos,we},所以句子词汇级别向量序列W={x1,x2,...,xn‑1,xn},实体关系级别向量序列R={r1,r2,...,rk‑1,rk};其中n是句子的长度、k为实体关系的个数。
3.根据权利要求2所述的基于实体关系级别注意力机制的事件检测方法,其特征在于步骤2具体实现如下:
2‑1.为了获取句子中每个单词的词汇级别表示,利用Stanford CoreNLP工具解析每个句子生成依存树结构,其中,每个单词对应依存树结构中的一个节点;在依存树结构基础上构建依存Tree‑LSTM,将W={x1,x2,...,xn‑1,xn}作为依存Tree‑LSTM的输入,获取每个单词的词汇级别表示,第i个单词的词汇级别表示为 以及包含整个句子信息的根节点的词汇级别表示为 因此,句子的词汇级别表示序列 其中i,root∈[1,n],n是句子的长度。
4.根据权利要求3所述的基于实体关系级别注意力机制的事件检测方法,其特征在于步骤3具体实现如下:
3‑1.为了获取句子中实体关系级别表示,将句中实体关系级别向量序列R={r1,r2,...,rk‑1,rk}输入双向LSTM,获取每个实体关系对应的前向隐含状态向量和后向隐含状态向量, 和 分别表示第j个实体关系对应的前向隐含状态向量和后向隐含状态向量,其中j∈k;为了和步骤2中依存Tree‑LSTM的每个单词的词汇级别表示维度一致,采用求平均的方式获取第j个实体关系级别表示 因此,句子的实体关系级别表示序列
5.根据权利要求4所述的基于实体关系级别注意力机制的事件检测方法,其特征在于步骤4具体实现如下:
4‑1.利用词汇级别注意力机制捕获重要的上下文信息,而候选触发词及其周围的单词应该获得更高的注意力权重;首先利用公式1计算候选触发词的词汇级别表示 和第i个单词的词汇级别表示 的相似度:
w w
其中,W和b分别是候选触发词相似度计算公式的权重矩阵和偏置项;然后根据st,i,获取第i个单词对第t个候选触发词的影响权重这里的st,m表示句中第m个单词的词汇级别表示 与候选触发词的词汇级别表示 的相似度,其中,1≤m≤n;
对于第t个候选触发词,将句中每个单词的词汇级别表示加权平均获取句中完整的语义信息
6.根据权利要求5所述的基于实体关系级别注意力机制的事件检测方法,其特征在于步骤5具体实现如下:
5‑1.句子中包含多对实体关系,不同的实体关系对第t个候选触发词的影响不同;首先利用公式3计算候选触发词的词汇级别表示 和第j个实体关系的实体关系级别表示 的相似度:
r r
其中,W和b分别表示实体关系相似度计算公式的权重矩阵和偏置项;然后根据st,j,获取第j个实体关系对第t个候选触发词的影响权重:这里的st,l表示句中第l个实体关系的实体关系级别表示 与候选触发词的词汇级别表示 的相似度,其中,1≤l≤k,而对于第t个候选触发词,将句中实体关系级别表示序列加权平均获取句中完整的实体关系信息
7.根据权利要求6所述的基于实体关系级别注意力机制的事件检测方法,其特征在于步骤6具体实现如下:
6‑1.触发词检测和识别是一个多分类的过程,针对第t个候选触发词,对步骤4的步骤5的 根节点词汇级别表示 以及候选触发词的词汇级别表示 进行拼接,然后带入公式5进行触发词识别和分类:
ETt=arg max(Pt) 公式6其中,Wt和bt是触发词多分类的权重矩阵和偏置项,Pt表示第t个候选触发词触发事件类型的概率分布,而ETt则表示第t个候选触发词触发的事件类型。