1.基于RWLSTM模型融合的医疗命名实体识别系统,其特征在于:包含数据预处理模块(1)、文本编码模块(2)、模型建模模块(3)、实体提取模块(4)以及词典构建模块(5);
所述数据预处理模块(1),对用户问句分词、实体标注、词典构建;
所述文本编码模块(2),将文本转化为可理解的数据类型和计算单元;
所述模型建模模块(3),根据任务构建模型的框架;
所述实体提取模块(4),对通过构建模型的运算且经过特征提取之后的信息进行实体提取并进行分类;
所述词典构建模块(5),构建医疗病历的命名实体语料词典。
2.根据权利要求1所述的基于RWLSTM模型融合的医疗命名实体识别系统,其特征在于:所述数据预处理模块(1)包含中文分词模块(101)、实体标注模块(102)和数据清洗模块(103),所述中文分词模块(101),用于电子病历中文本中文分词,将文本中的词语进行切分,采用分词工具,得到一串词汇序列;所述实体标注模块(102),用于实体标注,采用实体标注的工具将切分好的词语标注实体标签,以便在实体分类时依据实体标签判断实体的类型;所述数据清洗模块(103),对实体标注后的数据进行重新检查其标注的正确性和有效性,剔除实体标注错误的数据。
3.根据权利要求1所述的基于RWLSTM模型融合的医疗命名实体识别系统,其特征在于:所述文本编码模块(2),将数据预处理模块(1)处理后的文本数据采用BiLSTM编码,提供丰富的单词边界信息;然后,将前向和后向嵌入连接起来作为字符级单词向量表示;最后,将字符级单词向量序列与词典相结合,生成综合的单词表示向量。
4.根据权利要求1所述的基于RWLSTM模型融合的医疗命名实体识别系统,其特征在于:所述模型建模模块(3)包含预训练模块(301)和特征提取模块(302);所述预训练模块(301),词向量在进入特征提取之前,将文本编码后结合词典模块的生成综合的单词表示向量采用RWLSTM预训练模型训练生成上下文相关的词向量;所述特征提取模块(302),预训练模型生成的上下文相关的词向量进行运算,从词向量提取实体类别和实体边界的特征。
5.根据权利要求1所述的基于RWLSTM模型融合的医疗命名实体识别系统,其特征在于:所述实体提取模块(4),将经过预训练模块(301)和特征提取模块(302)后的数据进行实体提取,利用条件随机场将一个序列经过运算映射成另外一个序列,在命名实体识别中,经过条件随机场得到的序列即为命名实体的标签,标签包含实体边界和实体类别信息。
6.根据权利要求1所述的基于RWLSTM模型融合的医疗命名实体识别系统,其特征在于:所述词典构建模块(5),包含公开数据集和网络爬取符合要求的数据,词典构建保持实体类别数量的相对平衡。
7.利用权利要求1所述的系统实现基于RWLSTM模型融合的医疗命名实体识别方法,其特征在于:包括以下步骤:首先,将电子病历的文本进行数据预处理;
然后,将数据预处理之后的文本数据进行BiLSTM编码,并将生成的字符级词向量序列与词典相结合,以综合的单词表示向量后进入RWLSTM预训练模型模块进行训练,生成上下文相关的词向量;
之后,将词向量输入到特征提取模块进行特征提取,提取到实体边界特征和类别特征,特征在数学上的表示均是高维向量;
其次,将特征向量输入实体提取模块,提取文本的实体;实体提取模块输入每一个实体类别的概率,概率最高的类别即是最终的输出结果;
最后,将实体和实体类别输出,作为最终输出,作为医生诊断依据。
8.根据权利要求7所述的基于RWLSTM模型融合的医疗命名实体识别方法,其特征在于:由数据预处理模块(1),对电子病历文本进行中文分词以及命名实体标注;由文本编码模块(2),对文本序列采用BiLSTM编码;由模型建模模块(3),将词向量输入预训练模块形成上下文相关的词向量,然后再由特征提取模块进行词向量的特征提取;由实体提取模块(4),将提取的特征转化成实体序列;由词典构建模块(5),从网络上爬取相关信息和相关公开数据集提供最初的电子病历文本数据。
9.根据权利要求7所述的基于RWLSTM模型融合的医疗命名实体识别方法,其特征在于:由数据预处理模块(1)的中文分词模块(101),对电子病历中文本中文分词,将文本中的词语进行切分出,采用分词工具,得到一串词汇序列;数据预处理模块(1)的实体标注模块(102),对实体标注,采用实体标注的工具将切分好的词语标注实体标签,以便在实体分类时依据实体标签判断实体的类型;
由文本编码模块(2)将文本数据采用BiLSTM编码处理成可理解和处理的编码序列;其采用记忆门,遗忘门来计算词向量,并对文本序列的前后词信息及其特征进行捕捉,以此来学习实体的边界和长距离的依赖关系,记忆门和遗忘门的计算如下:计算遗忘门,为减少计算量,需遗忘部分的信息,其输入为上一个时刻的词向量ht‑1,当前时刻的输入词向量为xt,Wf为该层权重矩阵用于去除部分冗余信息,bf为该层的偏差矩阵,σ为激活函数,最后输出是遗忘门的值ft,即为遗忘部分信息之后的词向量,将其代入公式(4);
ft=σ(W∫·[ht‑1,xt+bf]) (1)
计算记忆门,除了遗忘门还需要对重要的信息进行保留,输入为前一时刻的词向量ht‑1,当前时刻的输入词向量ht‑1,Wf为该层权重矩阵,然后输出记忆门的值it,临时细胞状态其存储的是当前时刻的需要保留记忆的词向量,然后将其代入公式(4);
it=σ(Wf·[ht‑1,xt+bi]) (2)
计算当前时刻临时状态的里存储的词向量,输入为记忆门的词向量it和遗忘门的值ft作为系数,临时细胞状态的词向量 上一刻细胞里存储的词向量Ct‑1,并作矩阵乘法,输出为当前细胞状态里的词向量为Ct;
计算输出门和当前时刻的词向量,输入前一时刻的词向量ht‑1,当前时刻的输入词xt,当前时刻的词向量Ct,Wo为该层权重矩阵,bo为该层的偏差矩阵,然后用tanh函数进行运算;则有输出门的词向量值Ot,隐藏层的词向量为ht;
Ot=σ(Wo·[ht‑1,xt+bo]) (5)
ht=Ot*tanh(Ct) (6)
计算n轮,得到与句子长度相同的词向量序列{h0,h1,h2……hn‑1};最后,将词向量序列与词典相结合,生成综合的单词表示向量;
由模型建模模块(3)的预训练模块(301),将字符级单词向量序列与词典相结合生成综合的单词表示向量使用RWLSTM预训练模型训练生成上下文相关的词向量;模型建模模块(3)的特征提取模块(302)根据预训练模型生成的上下文相关的词向量进行运算,从词向量提取实体类别和实体边界的特征;
模型建模模块(3)中特征提取模块(302)采用Global Attention,在表征上执行注意力机制,以找到全局信息;transformer模型中的注意机制是一个函数,从输入句子中映射出重要和相关的单词,并为单词赋予更高的权重;其计算公式为(7);
V是表示输入特征的向量,Q、K是计算Attention权重的特征向量,由输入特征得到;
Attention(Q,K,V)是根据关注程度对V乘以相应权重,Attention机制中的Q,K,V是对当前的Query和所有的Key计算相似度,将相似度值通过Softmax层得到一组权重,根据权重与对应Value的乘积求和得到Attention下的Value值;最后所得词向量序列然后输入进实体提取模块进行实体提取;
实体提取模块(4),将经过模型建模模块并训练之后的数据进行实体提取,包括实体边界和实体类别,采用条件随机场算法进行实体提取;
词典构建模块(5),包括公开电子病历数据集和经过网络爬虫收集并经过处理之后的数据。