1.一种基于多头注意力机制的中医医案命名实体识别方法,其特征在于,包括以下步骤:获取中医医案的文本数据;
将获取的文本数据中的字符向量和单词向量结合后送入到Bi-GRU循环神经网络中,对输入特征向量进行特征提取,将两个方向的GRU结果进行联结,得到全局特征输出,具体为:使用捕获文本双向信息的Bi-GRU网络来提取句子上下文特征:hs=[h1,h2,…,hm]
其中,a
利用多头注意力机制,为字符向量提供潜在的语义信息,提取局部特征;所述多头注意力机制,具体为:对当前输入的中医文本的隐状态单头注意力权重进行训练;如公式所示:其中,wQ、wk和wv分别为需要训练权重参数,为平滑项,d为Ht的维度数,Ht是Bi-GRU神经网络的输出;每个单头注意力的输出之间不共享参数;
通过对单头的注意力进行连接得到多头注意力机制;如公式所示:其中,wm为训练参数,h为拼接数量;
将得到的多头注意力与当前隐状态输出进行连接,加入一个激活层进行训练,得到多头注意力结合Bi-GRU神经网络的输出;
将全局特征和局部特征输入到条件随机场层,得到文本数据的命名实体序列标注结果;
基于多头注意力机制的中医医案命名实体识别方法算法如下:输入:中医医案文本txt;
输出:最优输出序列标签tagged_txt;
(1)加载输入中医医案文本;
(2)txt=load(txt);
(3)将字符向量和单词向量结合形成特征向量;
(4)输入到Bi-GRU神经网络;
(5)txt_words=Bi-GRU(wordsVector);
(6)多头注意力计算出权重列表;
(7)MHead(att_words);
(8)得到输出矩阵;
(9)得到转移矩阵;
(10)返回最优输出序列标签tagged_txt。
2.如权利要求1所述的基于多头注意力机制的中医医案命名实体识别方法,其特征在于,在条件随机场层中,根据各个单词计算为任一个标签概率的得分以及转移矩阵计算序列得分,以分值最高的序列作为最优序列。
3.如权利要求1所述的基于多头注意力机制的中医医案命名实体识别方法,其特征在于,在对字符向量和单词向量进行结合时,使用超参数来控制字符和单词之间的组合比例。
4.如权利要求1所述的基于多头注意力机制的中医医案命名实体识别方法,其特征在于,采用第一字符、第二字符、第三字符、第四字符和第五字符对中医医案文本进行标记,分别表示一个单词的开头、中间、外面、结尾和单独一个字符的单词。
5.一种基于多头注意力机制的中医医案命名实体识别系统,其特征在于,包括:数据获取模块,被配置为:获取中医医案的文本数据;
全局特征获取模块,被配置为:将获取的文本数据中的字符向量和单词向量结合后送入到Bi-GRU循环神经网络中,对输入特征向量进行特征提取,将两个方向的GRU结果进行联结,得到全局特征输出,具体为:使用捕获文本双向信息的Bi-GRU网络来提取句子上下文特征:hs=[h1,h2,…,hm]
其中,a<t-1>,a
局部特征获取模块,被配置为:利用多头注意力机制,为字符向量提供潜在的语义信息,提取局部特征;
所述多头注意力机制,具体为:
对当前输入的中医文本的隐状态单头注意力权重进行训练;如公式所示:其中,wQ、wk和wv分别为需要训练权重参数,为平滑项,d为Ht的维度数,Ht是Bi-GRU神经网络的输出;每个单头注意力的输出之间不共享参数;
通过对单头的注意力进行连接得到多头注意力机制;如公式所示:其中,wm为训练参数,h为拼接数量;
将得到的多头注意力与当前隐状态输出进行连接,加入一个激活层进行训练,得到多头注意力结合Bi-GRU神经网络的输出;
实体序列识别模块,被配置为:将全局特征和局部特征输入到条件随机场层,得到文本数据的命名实体序列标注结果;
基于多头注意力机制的中医医案命名实体识别方法算法如下:输入:中医医案文本txt;
输出:最优输出序列标签tagged_txt;
(1)加载输入中医医案文本;
(2)txt=load(txt);
(3)将字符向量和单词向量结合形成特征向量;
(4)输入到Bi-GRU神经网络;
(5)txt_words=Bi-GRU(wordsVector);
(6)多头注意力计算出权重列表;
(7)MHead(att_words);
(8)得到输出矩阵;
(9)得到转移矩阵;
(10)返回最优输出序列标签tagged_txt。
6.一种介质,其上存储有程序,其特征在于,该程序被处理器执行时实现如权利要求1-4任一项所述的基于多头注意力机制的中医医案命名实体识别方法中的步骤。
7.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-4任一项所述的基于多头注意力机制的中医医案命名实体识别方法中的步骤。