1.一种基于多信息增强的中文命名实体识别方法,其特征在于,能够对文本内容进行处理,得到需要的专有名词,具体包括以下步骤:步骤1、采集用户需要识别的文本语句,通过自然语言处理工具spaCy为输入词添加词性标注,然后将对于词的词性信息转移到字符级别,将字符、词以及词性信息融合作为嵌入信息;
步骤2、构建一个基于多信息增强的中文命名实体识别网络,主要包括词性信息嵌入模块、嵌套实体矩阵的位置信息编码模块以及基于细节捕获层的新型前馈神经网络模块;
步骤3、在训练完成后的神经网络上对输入语句进行命名实体识别,得到需要的实体类型。
2.根据权利要求1所述的一种基于多信息增强的中文命名实体识别方法,其特征在于,所构建的一种基于多信息增强的中文命名实体识别方法网络包括信息嵌入模块、基于嵌套实体矩阵位置信息的自注意力机制模块、新型前馈神经网络模块以及CRF标签约束模块,其中,信息嵌入模块通过匹配预训练好的词表得到字符与词的嵌入向量表示,然后加上词性标注信息并将词性信息转移到字符级别表达,对于未登录词(Out OfVocabulary),这里对其进行随机初始化;自注意力机制模块通过将嵌入信息以及基于嵌套实体矩阵的位置信息送入自注意力机制中得到最后的特征输入,其中位置信息增强部分采用了本发明提出的基于二叉树结构的嵌入实体位置信息编码与FLAT网络的位置信息编码相融合;对于前馈神经网络模块部分,利用本发明提出的细节层(More Details Layer)来替代普通的残差层捕获更深层次的特征信息,对自注意力机制得到的特征进行再学习;CRF(Conditional Random Field)标签约束模块对标注序列内部的依赖或者约束进行建模,学习到了标签间的联系信息,最后输出预测结果。
3.根据权利要求2所述的一种基于多信息增强的中文命名实体识别方法,其特征在于,模型在嵌入层具有词性信息,在嵌入层通过spaCy为模型加入词性信息,并将词性信息转移到字符,在嵌入层将词性信息很好的与字符信息和词信息进行融合,为网络模型提供了更加丰富的特征。
4.根据权利要求2所述的一种基于多信息增强的中文命名实体识别方法,其特征在于,自注意力机制模块(Multi‑HeadAttention)通过多头注意力机制对嵌入信息进行编码,学习到输入词元间的长短距离的依赖,注意力机制的计算方法为:Att(A,V)=softmax(A)V其中,i表示第i个词元,ij表示第i个词元和第j个词元的关系。Q、K、V为输入矩阵的不同线性变换,u、v为可学习的超参数,注意力机制中的位置信息编码模块RBinary和RFLAT是注意力机制中的位置信息编码,用于输入语句中词元之间的位置信息建模,完整的位置信息编码通过拼接RBinary和RFLAT表示为:
5.根据权利要求2所述的一种基于多信息增强的中文命名实体识别方法,其特征在于,前馈神经网络模块通过利用线性层对于自注意力机制的输出进行特征映射,其中本发明提出的细节层(More Details Layer)替代了普通的残差结构,获得更加细节的特征信息。
6.根据权利要求1所述的一种基于多信息增强的中文命名实体识别方法,其特征在于,对于中文命名实体识别操作中主要包括:对输入语句进行词性标注,然后将词性标注信息转移到字符级别的表达中,之后将字符信息、词信息以及词性信息进行融合作为嵌入层的输出,在自注意力机制中利用嵌入层的信息以及嵌套实体矩阵信息进行学习,再通过改进的新型前馈神经网络进行特征映射,得到输出序列。最后将输出序列送入CRF层中进行标签约束学习,得到命名实体。