1.基于深度神经网络的中文命名实体识别方法,其特征在于,包括:
提取待识别序列中的字符及单词,将字符与单词拼接成字符特征向量;
将拼接后的字符特征向量,输入到双向长短词记忆模型网络中,学习上下文信息,得到上下文特征向量,具体为:将待识别序列中每个字符对应的向量与得到的与之对应单词信息的特征向量拼接起来得到字符特征向量xt,然后送入到双向长短词记忆模型BiLSTM中,经过双向长短词记忆模型BiLSTM处理后得到上下文特征hi,具体计算公式如下:其中,W表示连接两层的权重矩阵,b表示偏置向量, 是sigmoid激活函数,*为点成运算,it、ft和ot分别表示记忆门、遗忘门和输出门,xt和ht分别表示t时刻的输入和隐藏层状态,ct和 分别表示细胞状态和临时细胞状态,tanh()是激活函数;
对输入的xt分别采用正向和逆向计算得到 和 ,然后通过向量拼接的方式得到上下文特征向量hi;
空洞卷积网络学习上下文特征向量中的语义信息,得到语义特征向量,具体为:
将双向长短词记忆模型BiLSTM得到的上下文特征向量hi作为空洞卷积网络ID‑CNN的输入,通过空洞卷积网络ID‑CNN进一步提取语义特征,具体计算公式如下:j
其中,e0表示第一次的输入,hi表示双向长短词记忆模型BiLSTM的输出,Md 表示扩展宽j l+1度为d的第j个扩张宽度卷积层,et 和et 分别表示中间层和最后一层的卷积计算的结果,rk‑1表示的是ReLU激活函数,式(7)、(8)、(9)作为一次完整的运算N,nt 表示上一次计算的最后一层的输出结果,这个结果将作为下一次计算的输入,经过4次N运算后,得到最终的输出ln lnnt ,从而得到每个字符的最终特征ct ;
空洞卷积网络ID‑CNN,反复应用相同的小堆叠的空洞卷积块,每次迭代将上一个空洞卷积的结果作为输入;扩展宽度随着层数的增加呈现为指数增加,但参数的数量是线性增加的,感受野很快就覆盖到了全部的输入数据;模型是4个大小相同的空洞卷积块叠加在一起,每个空洞卷积块里有不同扩展宽度的三层空洞卷积;把上下文特征输入到ID‑CNN层中,经过卷积层,提取语义特征;
将上下文特征向量和语义特征向量拼接,获得融合后的数据特征,自注意力层对数据特征提取长距离依赖,得到注意力重要度特征向量;
条件随机场解码注意力重要度特征向量,获得识别标签;
所述自注意力层,对双向长短词记忆模型BiLSTM和空洞卷积网络ID‑CNN的特征进行整合,来获取句子级别的信息,提取长距离依赖,具体计算公式如下:其中,ht是上下文特征,ct是语义特征, 代表拼接操作,B是拼接融合后的数据特征,分别表示融合后的数据特征B的Value值、Key值以及查询Query的初始化权重矩阵,V、K、Q分别表示融合后的数据特征B的Value值、Key值以及查询Query矩阵, 则表示K矩阵的转置, 表示输入序列中特征 的查询向量,表示特征 的注意力权重,权重越高表示该数据特征越重要,softmax()为归一化指数函数, 表示调节因子,attention()表示注意力得分,表示特征 对应的Value向量。
2.如权利要求1所述的基于深度神经网络的中文命名实体识别方法,其特征在于,所述单词的提取,采用前向匹配和后向匹配相结合的方式识别序列中的单词。
3.如权利要求2所述的基于深度神经网络的中文命名实体识别方法,其特征在于,单词提取时,对获取的待识别序列,以序列的长度为最大长度,从左到右或从右到左进行匹配,找出每个字符在序列中的所有单词,如果没有匹配到,就用0去填充。
4.如权利要求1所述的基于深度神经网络的中文命名实体识别方法,其特征在于,双向长短词记忆模型网络,通过记忆门、遗忘门和输出门学习特征之间的长短期依赖关系,分别采用正向和逆向计算,将得到的正向特征和逆向特征,通过向量拼接的方式得到上下文特征向量。
5.如权利要求1所述的基于深度神经网络的中文命名实体识别方法,其特征在于,空洞卷积网络,用指数级的扩展宽度进行扩张宽度卷积层,完成四次迭代的完整卷积运算,得到语义特征。
6.如权利要求1所述的基于深度神经网络的中文命名实体识别方法,其特征在于,自注意力层,获取融合后的数据特征的Value值、Key值以及查询Query权重矩阵,归一化处理后,通过注意力重要函数得到最终的注意力重要度特征向量。
7.如权利要求1所述的基于深度神经网络的中文命名实体识别方法,其特征在于,得到注意力重要度特征向量之后,与条件随机场设置的状态转移矩阵相加,得到相应的预测分数,通过遍历比较候选集中所有可能的标签的分数,选取最大的分数对应的标签做为最终的识别标签。
8.基于深度神经网络的中文命名实体识别系统,其特征在于:包括单词提取模块、上下文特征提取模块、语义特征提取模块、自注意力模块和标签识别模块;
所述单词提取模块,用于提取待识别序列中的字符及单词,将字符与单词拼接成字符特征向量;
所述上下文特征提取模块,用于将拼接后的字符特征向量,输入到双向长短词记忆模型网络中,学习上下文信息,得到上下文特征向量,具体为:将待识别序列中每个字符对应的向量与得到的与之对应单词信息的特征向量拼接起来得到字符特征向量xt,然后送入到双向长短词记忆模型BiLSTM中,经过双向长短词记忆模型BiLSTM处理后得到上下文特征hi,具体计算公式如下:其中,W表示连接两层的权重矩阵,b表示偏置向量, 是sigmoid激活函数,*为点成运算,it、ft和ot分别表示记忆门、遗忘门和输出门,xt和ht分别表示t时刻的输入和隐藏层状态,ct和 分别表示细胞状态和临时细胞状态,tanh()是激活函数;
对输入的xt分别采用正向和逆向计算得到 和 ,然后通过向量拼接的方式得到上下文特征向量hi;
所述语义特征提取模块,用于空洞卷积网络学习上下文特征向量中的语义信息,得到语义特征向量,具体为:将双向长短词记忆模型BiLSTM得到的上下文特征向量hi作为空洞卷积网络ID‑CNN的输入,通过空洞卷积网络ID‑CNN进一步提取语义特征,具体计算公式如下:j
其中,e0表示第一次的输入,hi表示双向长短词记忆模型BiLSTM的输出,Md 表示扩展宽j l+1度为d的第j个扩张宽度卷积层,et 和et 分别表示中间层和最后一层的卷积计算的结果,rk‑1表示的是ReLU激活函数,式(7)、(8)、(9)作为一次完整的运算N,nt 表示上一次计算的最后一层的输出结果,这个结果将作为下一次计算的输入,经过4次N运算后,得到最终的输出ln lnnt ,从而得到每个字符的最终特征ct ;
空洞卷积网络ID‑CNN,反复应用相同的小堆叠的空洞卷积块,每次迭代将上一个空洞卷积的结果作为输入;扩展宽度随着层数的增加呈现为指数增加,但参数的数量是线性增加的,感受野很快就覆盖到了全部的输入数据;模型是4个大小相同的空洞卷积块叠加在一起,每个空洞卷积块里有不同扩展宽度的三层空洞卷积;把上下文特征输入到ID‑CNN层中,经过卷积层,提取语义特征;
所述自注意力模块,用于将上下文特征向量和语义特征向量拼接,获得融合后的数据特征,自注意力层对数据特征提取长距离依赖,得到注意力重要度特征向量;
所述标签识别模块,用于条件随机场解码注意力重要度特征向量,获得识别标签;
所述自注意力层,对双向长短词记忆模型BiLSTM和空洞卷积网络ID‑CNN的特征进行整合,来获取句子级别的信息,提取长距离依赖,具体计算公式如下:其中,ht是上下文特征,ct是语义特征, 代表拼接操作,B是拼接融合后的数据特征,分别表示融合后的数据特征B的Value值、Key值以及查询Query的初始化权重矩阵,V、K、Q分别表示融合后的数据特征B的Value值、Key值以及查询Query矩阵, 则表示K矩阵的转置, 表示输入序列中特征 的查询向量,表示特征 的注意力权重,权重越高表示该数据特征越重要,softmax()为归一化指数函数, 表示调节因子,attention()表示注意力得分, 表示特征 对应的Value向量。
9.一种计算机可读存储介质,其上存储有程序,其特征在于,该程序被处理器执行时实现如权利要求1‑7任一项所述的基于深度神经网络的中文命名实体识别方法中的步骤。
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,其特征在于,所述处理器执行所述程序时实现如权利要求1‑7任一项所述的基于深度神经网络的中文命名实体识别方法中的步骤。