1.一种基于SNOMED‑CT的医疗文本文档脱敏方法,其特征在于:包括以下步骤:步骤1、根据隐私要求,确定医疗文本脱敏系统的脱敏阈值;
步骤2、对待处理的医疗文本文档进行预处理,得到名词列表;
步骤3、根据步骤1获得的医疗文本脱敏系统的脱敏阈值,并基于SNOMED‑CT的语义相似度的计算方法,将步骤2中获得的名词列表进行敏感术语检测和消毒,得到脱敏后的文档。
2.根据权利要求1所述的一种基于SNOMED‑CT的医疗文本文档脱敏方法,其特征在于:所述步骤1的具体步骤包括:
(1)将当前有关医疗数据隐私的法律作为隐私要求,将其在SNOMED‑CT中的不同同义词及以其为祖先的所有术语作为敏感术语列表进行输入,将敏感术语列表称为S;
(2)将敏感术语列表S中包含的术语两两进行相似度计算,选取其中相似度最小的两个术语之间的相似性度量值来作为该框架的脱敏阈值τ。
3.根据权利要求1所述的一种基于SNOMED‑CT的医疗文本文档脱敏方法,其特征在于:所述步骤2的具体方法为:
输入待处理的医疗文本文档,对该医疗文本文档进行预处理,首先识别和删除否定词和不确定词,然后提取名词和名词短语,之后再提词干,最后进行去重等操作后得到名词列表T。
4.根据权利要求1所述的一种基于SNOMED‑CT的医疗文本文档脱敏方法,其特征在于:所述步骤3的具体步骤包括:
(1)使用基于SNOMED‑CT的语义相似度的计算方法,计算名词列表T中的术语语义距离,使用脱敏阈值τ来确保选出替代t的泛化g(t)与敏感术语列表S中的各术语的语义距离均大于τ,进而得到一级敏感词列表;
(2)将步骤3的第(1)步标记的一级敏感词列表作为敏感术语列表S1,使用基于SNOMED‑CT的语义相似度的计算方法,计算名词列表T中除去一级敏感词后,剩下词语与敏感术语列表S1的语义距离,使用消毒阈值τ来确保选出替代t的泛化g(t)与敏感术语列表S1中的各术语的语义距离均大于τ,以消除对于上述敏感词的披露风险,进而得到二级敏感词列表S2;
(3)对二级敏感词列表进行相邻术语拼接检测,并使用基于SNOMED‑CT的语义相似度的计算方法,计算相邻拼接术语的语义距离,使用消毒阈值τ来确保选出替代t的泛化g(t)与敏感术语列表S1中的各术语的语义距离均大于τ,进而得到脱敏后的医疗文档。
5.根据权利要求1所述的一种基于SNOMED‑CT的医疗文本文档脱敏方法,其特征在于:所述步骤3的基于SNOMED‑CT的语义相似度的计算方法的具体步骤包括:①在SNOMED‑CT结构中,设c1和c2是SNOMED‑CT中的两个概念,则这两个概念结点的具体化程度可表示为:
其中,h代表了c1和c2两个概念结点的最小公共祖先的深度。最小公共祖先的深度越大,概念的具体化程度越高,反之成立;
②在SNOMED‑CT结构中,设c1和c2是SNOMED‑CT中的两个概念,可以用两个概念结点之间的最短路径长度描述两个概念的语义距离:d
dis(c1,c2)=e
其中,d是概念结点c1和c2之间的最短路径,由此可见,两个概念结点之间的最短路径距离越大,它们之间的语义距离就越大,反之成立;
③综合考虑SNOMED‑CT中两个概念间的横向关系和纵向关系,两个概念的相似度计算方法为:
设单词q1具有多个概念(c11,c12,…,c1a),单词q2具有多个概念(c21,c22,…,c2b),则q1,q2两个单词间的语义相似度计算:
simw(q1,q2)=max{sim(c1i,c2j)}i∈[1,a],j∈[1,b]④假设术语p1包含多个单词(P11,P12,…,P1m),术语p2包含多个单词(P21,P22,…,P2n),则两个术语之间的语义相似性计算:
6.一种基于SNOMED‑CT的医疗文本文档脱敏系统,其特征在于:包括以下模块:敏感阈值计算模块,根据当前医疗数据隐私保护的法律法规及隐私保护要求,建立基于SNOMED‑CT的敏感术语列表,并根据该敏感术语列表中两两术语的相似度,确定医疗文本脱敏系统的脱敏阈值;
文本预处理模块,将待处理文档进行去否定词和不确定词操作后提取文档中的名词和名词短语;
敏感术语检测和消毒模块,以不泄露敏感信息和最大程度减少信息丢失为目的,基于SNOMED‑CT计算术语的相似度来确定敏感词,利用阈值进行敏感词检测和消除。