1.一种中文医疗智能实体识别方法,其特征在于,所述方法包括:
获取中文医疗领域的文本数据,对所述文本数据构建出字典树,并采用词向量模型提取出文本数据中字符的字特征;
对文本数据中的每个字符通过所述字典树查找出对应的多个匹配词,并采用注意力机制将所述多个匹配词所构成的词汇信息整合,输出字符的词特征;
对文本数据中的每个字符进行拆分,并通过卷积神经网络提取出每个字符的字形特征;
将所述字特征、所述词特征和所述字形特征进行多元特征自适应融合;具体包括:将文本数据分别经过B(ci),F(ci),G(ci)后,分别得到对应的所述字特征所述词特征 和所述字形特征 表示为E=[e1,e2,e3];对每种域的特s
征向量ek分别计算出独立域特征评分 和共享域特征评分fk ,将独立域特征评分 与将每种域特征向量ek作为独立域特征计算哈达玛积 将共享域特征评分 与将共享域特征向量[e1,e2,e3]处理后的共享域特征hk计算哈达玛积 并将两个哈达玛积相加得到该域特征 拼接各域特征gek得到融合后的多元特征其中,k∈{1,2,3},k的取值不同,代表不同的域特征向量;
gk=σ(Wg.ek+bg),hk=tanh(Whek+Uh[e1,e2,e3]+bh),fk=σ(Wf.ek+Uf[e1,e2,e3]+bf);σ,tanh,softmax表示不同的激活函数;Wg,Wf,Wh,Uf,Uh表示可学习权重矩阵;bg,bf,bh表示可学习偏置; 表示融合后的第n个特征向量,n的取值范围由所述字特征、所述词特征和所述字形特征的总数决定;
将融合后的多元特征输入到基于卷积神经网络和循环神经网络的混合模型中,输出文本的上下文向量;
对所述文本的上下文向量利用条件随机场进行标签约束,识别出对应的智能实体。
2.根据权利要求1所述的一种中文医疗智能实体识别方法,其特征在于,所述采用注意力机制将所述多个匹配词所构成的词汇信息整合之前还包括将所有字符的匹配词填充为相同长度。
3.根据权利要求1所述的一种中文医疗智能实体识别方法,其特征在于,所述对文本数据中的每个字符进行拆分,并通过卷积神经网络提取出每个字符的字形特征包括将汉字字符转换为繁体字字符,将所述繁体字字符拆分为不同字根,将所述字根输入到卷积神经网络中,随机初始化得到每个字根对应的嵌入向量,使用最大值池化和全连接网络输出得到每个字符的字形特征。
4.根据权利要求1所述的一种中文医疗智能实体识别方法,其特征在于,所述将融合后的多元特征输入到基于卷积神经网络和循环神经网络的混合模型中,输出文本的上下文向量包括采用堆叠空洞卷积网络对融合后的多元特征进行编码,计算出每个字符与其相邻字符之间的关联关系,得到每个字符的局部上下文向量;采用长短期记忆神经网络对融合后的多元特征进行编码,使用自注意力机制计算出每个字符与其相邻字符之间的关联关系,得到每个字符的全局上下文向量;将每个字符的局部上下文向量和全局上下文向量进行拼接,得到每个字符的上下文向量。
5.根据权利要求1所述的一种中文医疗智能实体识别方法,其特征在于,对所述文本的上下文向量利用条件随机场进行标签约束,识别出对应的智能实体包括将采用条件随机场损失函数从文本的上下文向量中筛选得到最优向量;基于所述最优向量识别得到对应的智能实体。
6.一种中文医疗智能实体识别装置,其特征在于,所述装置用于实现如权利要求1~5任一所述的一种中文医疗智能实体识别方法,所述装置包括:获取模块,用于获取中文医疗领域的文本数据;
预处理模块,用于对所述文本数据构建出字典树;
字特征提取模块,用于采用词向量模型提取出文本数据中字符的字特征;
词特征提取模块,用于对文本数据中的每个字符通过所述字典树查找出对应的多个匹配词,并采用注意力机制将所述多个匹配词所构成的词汇信息整合,输出字符的词特征;
字形特征提取模块,用于对文本数据中的每个字符进行拆分,并通过卷积神经网络提取出每个字符的字形特征;
特征融合模块,用于将所述字特征、所述词特征和所述字形特征进行多元特征自适应融合;
预测模块,将融合后的多元特征输入到基于卷积神经网络和循环神经网络的混合模型中,输出文本的上下文向量;
识别模块,对所述文本的上下文向量利用条件随机场进行标签约束,识别出对应的智能实体。
7.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1~5任一所述方法的步骤。