1.一种症状数据处理方法,其特征在于,包括:
获取症状数据;
通过预设BERT编码器将所述症状数据处理为表征向量,所述表征向量基于所述症状数据中的症状特征数据而生成;所述症状特征数据包括症状名称和症状属性;所述预设BERT编码器经预训练任务训练后获得;所述预训练任务用于确定所述表征向量与所述症状特征数据之间的关联关系;
将所述表征向量输入预设TextCNN模型,获取所述预设TextCNN模型输出的分类结果;
所述通过预设BERT编码器将所述症状数据处理为表征向量,所述表征向量基于症状名称和症状属性而生成之前,还包括:建立预训练任务,使用word2vec模型将症状样本处理为若干个词向量,所述词向量包括基于症状名称生成的第一词向量,基于症状属性生成的第二词向量;
将所述若干个词向量输入初始BERT网络模型,获取所述初始BERT网络模型输出的训练表征向量;
根据所述训练表征向量计算所述初始BERT网络模型的损失值;
若所述损失值处于预设范围之外,调整所述初始BERT网络模型的模型参数,并重新计算所述症状样本的训练表征向量,以计算所述初始BERT网络模型的损失值;
若所述损失值处于预设范围之内,则所述预训练任务训练完毕,训练完毕后的所述初始BERT网络模型即为所述预设BERT编码器;
所述获取症状数据之后,还包括:
根据所述症状数据生成句向量;
将所述句向量与本地病历库的病历句向量比较,计算余弦相似度;
所述将所述句向量与本地病历库的病历句向量比较,计算余弦相似度之前,还包括:获取本地病历库的病历数据;
使用所述预设BERT编码器处理所述病历数据,生成症状词向量查询词表,所述症状词向量查询词表包括每一症状的症状词向量;
计算所述症状词向量的TF‑IDF值;
根据所述症状词向量和所述TF‑IDF值生成每份病历的病历句向量;
其中,所述病历句向量通过以下公式进行转换:
其中,Semb为病历句向量,wiemb为第i个症状词向量,TF―IDFi为第i个症状词向量对应的TF‑IDF值,k为病历中的症状总数量。
2.如权利要求1所述的症状数据处理方法,其特征在于,所述获取症状数据,包括:获取第一症状数据;
根据所述第一症状数据输出相关症状提示;
基于所述相关症状提示获取第二症状数据;
在确定症状数据收集完毕后,完成所述症状数据的获取,所述症状数据包括所述第一症状数据和所述第二症状数据。
3.如权利要求1所述的症状数据处理方法,其特征在于,所述将所述句向量与本地病历库的病历句向量比较,计算余弦相似度之后,还包括:根据所述余弦相似度选取指定个数的匹配病历;
获取所述匹配病历所属的就诊科室,将出现频次最高的就诊科室确定为推荐科室。
4.一种症状数据处理装置,其特征在于,包括:
获取模块,用于获取症状数据;
数据处理模块,用于通过预设BERT编码器将所述症状数据处理为表征向量,所述表征向量基于所述症状数据中的症状名称及其属性而生成;所述预设BERT编码器经预训练任务训练后获得;所述预训练任务用于确定所述表征向量与所述症状名称和症状属性之间的关联关系;
数据输出模块,用于将所述表征向量输入预设TextCNN模型,获取所述预设TextCNN模型输出的分类结果;
建立任务模块,用于建立预训练任务,使用word2vec模型将症状样本处理为若干个词向量,所述词向量包括基于症状名称生成的第一词向量,基于症状属性生成的第二词向量;
模型训练模块,用于将所述若干个词向量输入初始BERT网络模型,获取所述初始BERT网络模型输出的训练表征向量;
损失计算模块,用于根据所述训练表征向量计算所述初始BERT网络模型的损失值;
迭代模块,用于若所述损失值处于预设范围之外,调整所述初始BERT网络模型的模型参数,并重新计算所述症状样本的训练表征向量,以计算所述初始BERT网络模型的损失值;
确定编码器模块,用于若所述损失值处于预设范围之内,则所述预训练任务训练完毕,训练完毕后的所述初始BERT网络模型即为所述预设BERT编码器;
生成句向量模块,用于根据所述症状数据生成句向量;
计算余弦相似度模块,用于将所述句向量与本地病历库的病历句向量比较,计算余弦相似度;
所述计算余弦相似度模块包括:
获取本地病历数据单元,用于获取本地病历库的病历数据;
计算症状词向量单元,用于使用所述预设BERT编码器处理所述病历数据,生成症状词向量查询词表,所述症状词向量查询词表包括每一症状的症状词向量;
计算TF‑IDF值单元,用于计算所述症状词向量的TF‑IDF值;
生成病历句向量单元,用于根据所述症状词向量和所述TF‑IDF值生成每份病历的病历句向量;
其中,所述病历句向量通过以下公式进行转换:
其中,Semb为病历句向量,wiemb为第i个症状词向量,TF―IDFi为第i个症状词向量对应的TF‑IDF值,k为病历中的症状总数量。
5.如权利要求4所述的症状数据处理装置,其特征在于,还包括:匹配病历模块,用于根据所述余弦相似度选取指定个数的匹配病历;
确定科室模块,用于获取所述匹配病历所属的就诊科室,将出现频次最高的就诊科室确定为推荐科室。
6.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并在所述处理器上运行的计算机可读指令,其特征在于,所述处理器执行所述计算机可读指令时实现如权利要求1至3中任一项所述症状数据处理方法。
7.一个或多个存储有计算机可读指令的可读存储介质,所述计算机可读指令被一个或多个处理器执行时,使得所述一个或多个处理器执行如权利要求1至3中任一项所述症状数据处理方法。