1.一种疾病名称对码方法,其特征在于,包括下述步骤:
从电子病历中获取疾病名称列表;
对所述疾病名称列表中重复的疾病名称进行去重处理,得到去重后的疾病名称列表;
将所述去重后的疾病名称列表输入到精确匹配模型中,依据标准疾病分类表进行对码,得到第一对码结果和候选对码疾病名称;
将得到的候选对码疾病名称输入到模糊匹配模型中,依据所述标准疾病分类表进行对码,得到第二对码结果;
根据所述第一对码结果和所述第二对码结果生成疾病名称对码列表。
2.根据权利要求1所述的疾病名称对码方法,其特征在于,所述精确匹配模型由若干有序排列的精确匹配子模型组成;所述将所述去重后的疾病名称列表输入到精确匹配模型中,依据标准疾病分类表进行对码,得到第一对码结果和候选对码疾病名称的步骤具体包括:将所述去重后的疾病名称列表中的各疾病名称,按照所述精确匹配模型中精确匹配子模型的排列顺序,输入至精确匹配子模型;
通过当前精确匹配子模型,在标准疾病分类表中查询与输入的疾病名称匹配的标准疾病名称;
当查询到匹配的标准疾病名称时,将查询到的标准疾病名称以及与所述标准疾病名称对应的疾病编码作为所述疾病名称的第一对码结果;
当所述当前精确匹配子模型未查询到匹配的标准疾病名称时,将所述疾病名称输入至下一个精确匹配子模型继续执行匹配;
若疾病名称未被各精确匹配子模型完成匹配,将所述疾病名称标记为候选对码疾病名称。
3.根据权利要求2所述的疾病名称对码方法,其特征在于,所述将所述去重后的疾病名称列表中的各疾病名称,按照所述精确匹配模型中精确匹配子模型的排列顺序,输入至精确匹配子模型的步骤具体包括:将所述去重后的疾病名称列表中的各疾病名称,按照所述精确匹配模型中四个精确匹配子模型的排列顺序,输入至精确匹配子模型;所述四个精确匹配子模型包括完全匹配子模型、去停用词子模型、主次分离子模型和同义识别子模型。
4.根据权利要求1所述的疾病名称对码方法,其特征在于,所述模糊匹配模型由若干模糊匹配子模型组成;所述将得到的候选对码疾病名称输入到模糊匹配模型中,依据所述标准疾病分类表进行对码,得到第二对码结果的步骤具体包括:将得到的候选对码疾病名称输入到所述模糊匹配模型中的各模糊匹配子模型;
基于所述各模糊匹配子模型,计算所述候选对码疾病名称与所述标准疾病分类表中各标准疾病名称的相似度;
根据所述各模糊匹配子模型计算得到的相似度,生成第二对码结果。
5.根据权利要求4所述的方法,其特征在于,所述将得到的候选对码疾病名称输入到所述模糊匹配模型中的各模糊匹配子模型的步骤具体包括:将得到的候选对码疾病名称输入到所述模糊匹配模型中的四个模糊匹配子模型,所述四个模糊匹配子模型包括词频匹配子模型、N-Gram子模型、编辑距离子模型和余弦计算子模型。
6.根据权利要求5所述的疾病名称对码方法,其特征在于,当所述模糊匹配子模型为编辑距离子模型时,所述候选对码疾病名称与所述标准疾病分类表中各标准疾病名称的相似度的计算步骤具体包括:计算所述候选对码疾病名称与所述标准疾病分类表中各标准疾病名称的文本编辑距离;
将各文本编辑距离进行归一化,并以归一化之后的各文本编辑距离作为所述候选对码疾病名称与所述各标准疾病名称的相似度。
7.根据权利要求4所述的疾病名称对码方法,其特征在于,所述根据所述各模糊匹配子模型计算得到的相似度,生成第二对码结果的步骤具体包括:对于每个候选对码疾病名称,从所述各模糊匹配子模型计算得到的相似度中,筛选最大相似度所对应的标准疾病名称和疾病编码进行HardVoting融合,得到第二对码结果;
或者,
根据所述各模糊匹配模型计算得到的相似度进行SoftVoting融合,得到第二对码结果。
8.一种疾病名称对码装置,其特征在于,包括:
列表获取模块,用于从电子病历中获取疾病名称列表;
列表去重模块,用于对所述疾病名称列表中重复的疾病名称进行去重处理,得到去重后的疾病名称列表;
精确匹配模块,用于将所述去重后的疾病名称列表输入到精确匹配模型中,依据标准疾病分类表进行对码,得到第一对码结果和候选对码疾病名称;
模糊匹配模块,用于将得到的候选对码疾病名称输入到模糊匹配模型中,依据所述标准疾病分类表进行对码,得到第二对码结果;
列表生成模块,用于根据所述第一对码结果和所述第二对码结果生成疾病名称对码列表。
9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的疾病名称对码方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的疾病名称对码方法的步骤。