欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2020101096011
申请人: 杭州电子科技大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-01-05
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.基于实体关系和依存Tree-LSTM的联合事件抽取的方法,其特征在于包括如下步骤:步骤1、对原始文本以及文本标注信息进行编码;

步骤2、将步骤1的结果输入双向LSTM;获取具有时序的前向隐含状态向量 和后向隐含状态向量步骤3、首先利用Stanford CoreNLP工具将输入句子解析成依存树形结构,然后将步骤

1的编码结果输入依存树形结构构建的依存Tree-LSTM,获取树根节点隐含状态向量 和t个时刻的隐含状态向量步骤4、将实体关系向量Rk编码连接树根节点隐含状态向量 获取保存实体关系句子向量 同时连接双向LSTMt时刻的前向隐含状态向量 和后向隐含状态向量 以及依存Tree-LSTM  t时刻的隐含状态向量 求得新隐含状态向量从而既保存子结点的信息也获取具有一定时序的局部下上文信息;

步骤5、连接步骤4中t时刻隐含状态向量Ht与句子向量F,进行触发词识别和分类;

步骤6、依次将步骤5中被识别为触发词的第t个词的隐含状态向量Ht、第i个事件论元候选词(第i个实体提及)隐含状态向量 包含实体关系的句子向量F以及第i个事件论元候选词在实体关系向量Rk中的实体关系论元角色 连接,进行事件论元的识别和分类。

2.根据权利要求1所述的基于实体关系和依存Tree-LSTM的联合事件抽取的方法的步骤1具体实现如下:

1-1.从源文件中获取未处理原始文本以及文本标注信息,标注信息包含实体提及、实体类型、事件触发词、事件论元、事件论元角色、实体关系、实体关系论元角色,其中,一共7种实体类型,39种事件触发词类型、20种实体关系类型和16种实体关系论元角色;然后利用Stanford CoreNLP对原始文本进行分句、分词;获取词性和句子的依存树形结构,其中,每个词作为树性结构的一个结点;并分别创建词性向量表、实体类型向量表、实体关系向量表、实体关系论元角色向量表、触发词类型向量表以及事件论元角色向量表,其中每一种向量表都有类型“其他”对应的初始化向量;

1-2.查询预训练的glove词向量矩阵,获取句子中每个词的词向量wi,然后查询词性向量表得到词性向量wpos和查询实体类型向量表得到实体类型向量we;

获取每个词表示xi={wi,wpos,we},因此句子向量矩阵表示为W={x1,x2,...,xn-1,xn},其中n是句子的长度。

3.根据权利要求1或2所述的基于实体关系和依存Tree-LSTM的联合事件抽取的方法的步骤2具体实现如下:将句子的向量矩阵W={x1,x2,...,xn-1,xn}输入双向LSTM中,分别获取该句子的前向隐含状态矩阵 和后向隐含状态矩阵 其中和 分别表示t时刻的前向隐含状态向量和后向隐含状态,t∈[1,n],双向LSTM是一种时间序列敏感的模型,因此, 和 分别保存具有一定时序信息的上文和下文信息。

4.根据权利要求3所述的一种基于实体关系和依存Tree-LSTM的联合事件抽取的方法的步骤3具体实现如下:通过Stanford CoreNLP工具将每个句子解析成树形结构,句中每个单词构成树形结构的结点,与该单词有依存关系的则以该结点的父节点或者子结点出现;将W={x1,x2,...,xn-1,xn}输入到该树形结构为基础构建的依存Tree-LSTM,获取该句子解析成的树形结构中的每个结点的隐含状态向量 和根节点的隐含状态向量 因此句子的依存Tree-LSTM输出的句子的隐含状态矩阵 其中t,root∈[1,n],n是句子的长度。

5.根据权利要求4所述的一种基于实体关系和依存Tree-LSTM的联合事件抽取的方法的步骤4具体实现如下:

4-1.通过查询步骤1随机初始化的实体关系表,获取句子中的实体关系向量Rk,表示第k种实体关系;如果不存在实体关系,Rk指向“其他”的实体关系向量,并在训练过程中调整向量;

4-2依存Tree-LSTM中每个结点的记忆单元向量c和隐含状态向量h都是由该结点的子结点的隐含状态向量求和得到;所以语义依存树结构中的根节点包含全句信息,为了使句子中包含实体关系信息的句子级别的向量,将步骤4生成的根节点隐含向量 和实体关系向量Rk连接,获取包含实体关系信息的句子向量

4-3将步骤2和步骤3每个时刻的隐含向量组合,同时为降低隐含向量的维度,采用求平均的方式获取t时刻的隐含状态向量: 而整个句子的隐含状态矩阵为H={H1,H2,···,Hn-1,Hn},其中t∈[1,n],n是句子的长度。

6.根据权利要求5所述的一种基于实体关系和依存Tree-LSTM的联合事件抽取的方法的步骤5具体实现如下:

5-1规定只有动词和名词作为触发词候选词,一共有39种子类型,其中包括“其他”类型;对句子中的每个词进行词性判断,如果词性为动词或名词,将当前t时刻的隐含状态向量Ht表示与句子向量F连接,输入触发词多分类公式中:Pttri=softmaxtri(WT[Ht,F]+bT)

tri

其中,WT和bT分别是触发词多分类的权重矩阵和偏置项;Pt 表示第t个词(每个词为一个时刻)的触发词候选词触发事件类型的概率, 表示第t个时刻触发的事件类型。

7.根据权利要求6所述的基于实体关系和依存Tree-LSTM的联合事件抽取的方法的步骤6具体实现如下:

6-1实体关系论元角色一共有20种,创建随机初始化的实体关系论元角色向量表,通过实体关系论元角色查找该向量表,并在训练的过程中调整向量;用 表示第i个实体提及在实体关系向量Rk中扮演第j种实体关系论元角色;

6-2.将句子中实体提及作为事件论元候选词;依次将第i个事件论元候选词(即第i个实体提及)隐含状态向量 在步骤5-1被识别为触发词的第t个词的隐含状态向量Ht、包含实体关系的句子向量F以及第i个事件论元候选词在实体关系Rk中的实体关系论元角色 连接;将连接向量输入事件论元识别多分类公式:其中,WA和bA分别是事件论元分类的权重矩阵和偏置项, 表示第i个事件论元候选词在事件类型 扮演的事件论元角色的概率值; 表示第i个事件论元候选词在事件类型 扮演的事件论元角色。