1.一种基于分词文本的电子病例查重方法,其特征在于,所述方法包括:对用户输入的待查重病例进行分词处理,得到分词文本;
根据预设子串值对所述分词文本进行特征提取,得到病例文本特征;
从所述分词文本中获取词语类型词和医疗含义词,并统计所述词语类型词在所述分词文本中第一比率、所述医疗含义词在所述分词文本中的第二比率;
整合所述第一比率、所述第二比率,得到病例含义特征;
分别根据所述病例文本特征、所述病例含义特征计算所述待查重病例与病例数据库中病例文本的相似度,得到文本相似度和含义相似度;
根据预设权重值融合所述文本相似度和所述含义相似度,得到所述待查重病例与所述病例文本的最终相似度,并将大于预设值的最终相似度对应的病例文本作为查重结果。
2.根据权利要求1所述的方法,其特征在于,所述分词文本包括分词后的字和/或词组成的多个字符,所述根据预设子串值对所述分词文本进行特征提取,得到病例文本特征,包括:为所述分词文本中的每一字符生成唯一编码;
通过n-gram算法根据所述预设子串值对所述分词文本进行特征提取,得到所述病例文本特征,其中,所述病例文本特征包括至少一个按所述字符编码顺序排列的连续词语串,且所述连续词语串中的字符按照所述唯一编码的大小顺序排列。
3.根据权利要求2所述的方法,其特征在于,所述预设子串值的取值范围为2-6。
4.根据权利要求1所述的方法,其特征在于,所述从所述分词文本中获取词语类型词和医疗含义词,并统计所述词语类型词在所述分词文本中第一比率、所述医疗含义词在所述分词文本中的第二比率,包括:
从所述分词文本中获取词语类型词为实词和虚词的字符,并计算所述词语类型词在所述分词文本中的第一比率;
从所述分词文本中获取医疗含义词;
根据医疗实体库对所述医疗含义词进行医疗实体关联;
计算医疗实体关联后的医疗含义词在所述分词文本中的第二比率。
5.根据权利要求1所述的方法,其特征在于,所述整合所述第一比率、所述第二比率,得到病例含义特征,包括:
按照12∶5的比例将所述词语类型词和所述医疗含义词进行整合,得到病例含义特征f1=(x1,x2,x3,...,x17),其中,(x1,x2,x3,...,x12)表示12个词语类型词,(x13,x14,x15,x16,x17)表示5个医疗含义词。
6.根据权利要求1所述的方法,其特征在于,所述分别根据所述病例文本特征、所述病例含义特征计算所述待查重病例与病例数据库中病例文本的相似度,得到文本相似度和含义相似度,包括:
分别对所述待查重病例、病例数据库中病例数据的病例文本特征进行文本字面特征提取,得到查重集合和数据集合;
计算所述查重集合和所述数据集合中相同连续词语串的个数,得到所述文本相似度;
通过余弦相似度算法计算所述待查重病例与所述病例数据的病例含义特征的相似度,作为所述含义相似度。
7.根据权利要求1所述的方法,其特征在于,所述根据预设权重值融合所述文本相似度和所述含义相似度,得到所述待查重病例与所述病例文本的最终相似度,包括:以预设权重值为w1:w2对所述文本相似度和所述含义相似度进行叠加处理,得到所述最终相似度,其中,0<=w2<=1,w1+w2=1。
8.一种基于分词文本的电子病例查重装置,其特征在于,包括:分词模块,用于对用户输入的待查重病例进行分词处理,得到分词文本;
提取模块,用于根据预设子串值对所述分词文本进行特征提取,得到病例文本特征;
比率模块,用于从所述分词文本中获取词语类型词和医疗含义词,并统计所述词语类型词在所述分词文本中第一比率、所述医疗含义词在所述分词文本中的第二比率;
整合模块,用于整合所述第一比率、所述第二比率,得到病例含义特征;
相似模块,用于分别根据所述病例文本特征、所述病例含义特征计算所述待查重病例与病例数据库中病例文本的相似度,得到文本相似度和含义相似度;
查重模块,用于根据预设权重值融合所述文本相似度和所述含义相似度,得到所述待查重病例与所述病例文本的最终相似度,并将大于预设值的最终相似度对应的病例文本作为查重结果。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。