1.一种中医药文本关键信息的智能抽取方法,其特征在于,包括:将待识别的中医药文本数据输入到训练好的实体片段识别模型中,预测中医药文本中实体的位置;将待识别的中医药文本数据以及对应的实体位置信息输入到训练好的实体类别识别模型,预测中医药文本中实体的类别;其中,所述实体片段识别模型采用BIO标记法结合Bert+CRF模型架构;
所述实体类别识别模型采用原型网络结构;
对实体片段识别模型和实体类别识别模型进行训练的过程包括:S1:获取原始中医药文本数据,采用全词掩盖策略对原始中医药文本数据进行继续预训练得到中医药文本的预训练模型M;
S2:采用基于语义聚类的分层抽样法抽取部分原始中医药文本进行人工标注生成具有标签信息的训练样本集,所述标签信息包括:原始中医药文本中实体的位置信息和原始中医药文本中实体的类别信息;
S3:根据中医药文本的预训练模型M、训练样本集和训练样本的标签信息利用反向传播机制对实体片段识别模型进行训练;
所述对实体片段识别模型进行训练的具体步骤包括:
S31:采用BIO标记法对训练样本中的词进行标记,所述标记包括:当词属于实体片段开头标记为B,当词属于实体片段中间标记为I,当词属于非实体片段标记为O;
S32:采用中医药文本的预训练模型M提取训练样本中每个字符的向量得到训练样本的词向量序列;
S33:将训练样本的词向量序列线性映射后输入到CRF层根据BIO标记利用反向传播机制对实体片段识别模型的参数进行微调完成实体片段识别模型的训练;
S4:根据中医药文本的预训练模型M、训练样本集和训练样本的标签信息利用反向传播机制对实体类别识别模型进行训练;
所述对实体类别识别模型进行训练的具体步骤包括:
S41:采用中医药文本的预训练模型M作为初始化编码层对训练样本进行编码,得到训练样本的文本向量;
S42:根据训练样本实体的位置信息将每个实体片段S中所有的字符向量做平均聚合得到实体片段的词向量:S43:根据训练样本中所有实体片段的词向量计算每个实体类别的类原型:S44:计算训练样本中实体片段的词向量与每个实体类别类原型之间的距离;
S45:将训练样本中所有实体片段的词向量与每个实体类别类原型之间的距离输入到Softmax层进行归一化,得到训练样本中实体片段的概率分布:取概率最大的类别作为实体片段的预测输出;
S46:根据实体片段的词向量与每个实体类别类原型之间的距离和训练样本的类别信息构建损失函数,利用反向传播机制调节实体类别识别模型的参数,当损失函数小于设定阈值完成实体类别识别模型的训练。
2.根据权利要求1所属的一种中医药文本关键信息的智能抽取方法,其特征在于,所述采用全词掩盖策略对原始中医药文本数据进行继续预训练包括:S11:使用Jieba分词中的隐马尔科夫分词模型对原始中医药文本进行分词;
S12:采用全词掩盖策略将原始中医药文本中20%的词语替换为等长度的“[MASK]”标*记得到x;
*
S13:将x输入到中文预训练模型Bert‑WWM,采用MLM任务继续预训练,得到中医药文本的预训练模型M。
3.根据权利要求1所属的一种中医药文本关键信息的智能抽取方法,其特征在于,所述采用基于语义聚类的分层抽样法抽取部分原始中医药文本进行人工标注生成具有标签信息的训练样本集包括:S21:使用USE获取原始中医药文本的语义特征;
S22:将每个原始中医药文本的语义特征输入到K‑means聚类算法进行聚类得到K个聚类簇;
S23:从每个聚类簇中随机抽取适量样本,安排专业标注人员进行标注,得到具有标签信息的训练样本集L。
4.根据权利要求1所属的一种中医药文本关键信息的智能抽取方法,其特征在于,所述损失函数包括:其中, 表示实体片段TS的词向量和第ys类类原型之间的距离,表示实体片段的真实类别和预测类别的交叉熵。