1.一种多尺度临床路径挖掘方法,其特征在于,包括:
将多个用户每天所使用的项目使用数据转换为项目使用矩阵,并将所述项目使用矩阵记为m*n,m表示所有所述用户的所有住院天数的加和,n表示所有项目的数量,所述项目使用矩阵中的每一行代表一个用户在一天中所使用的项目;
将所述项目使用矩阵中的每一行作为用户·天,并根据各所述用户·天之间的相似度对相似的用户·天进行聚类;
使用聚类的核心对各所述用户的就医路径进行表示,并将各所述用户的就医路径进行序列化表示,然后从中挖掘出频繁序列,并将所述频繁序列作为主要临床路径;
所述将所述项目使用矩阵中的每一行作为用户·天,并根据各所述用户·天之间的相似度对相似的用户·天进行聚类,包括:获取每一所述用户·天中所使用的项目,并将获取到的项目作为单词;
通过基于词向量的表示学习对每一所述用户·天中的所有单词进行向量表示,得到对应的单词向量;
通过词频加权的方法对每一所述用户·天中的所有单词的单词向量进行加权,得到每一所述用户·天的句子向量,其中,词频加权的计算公式为:vday=dot(VI,TFIDF),其中vday表示所述用户·天的句子向量,VI表示所述用户·天内各个项目表示的矩阵,其中I为所述用户·天中项目的集合,VI的每一行表示一个项目的单词向量,dot表示元素的内积运算,TFIDF表示词频文章特异度矩阵;项目i的TFIDF计算公式为:其中Di表示包含项目i的用户·天的总数,D表示所有用户·天的总数,Ai表示包含项目i的总用户数量,A表示总用户数量;
根据各所述用户·天的句子向量之间的距离对相似的用户·天进行聚类;
所述使用聚类的核心对各所述用户的就医路径进行表示,并将各所述用户的就医路径进行序列化表示,然后从中挖掘出频繁序列,并将所述频繁序列作为主要临床路径,包括:使用不同的数字对每一聚类的核心分别进行表示;
将每一聚类下的所述用户·天使用对应聚类的核心的数字进行表示;
将数字表示后的每一用户·天进行序列化表示,得到就医路径序列;
删除所述就医路径序列中连续相同元素且仅保留其中一个,得到简化后的就医路径序列;
使用序列挖掘算法从所述就医路径序列中挖掘出频繁序列,并将所述频繁序列作为主要临床路径。
2.根据权利要求1所述的多尺度临床路径挖掘方法,其特征在于,所述将多个用户每天所使用的项目使用数据转换为项目使用矩阵,并将所述项目使用矩阵记为m*n,包括:预先构建项目使用矩阵,其中,所述项目使用矩阵的行数为m,列数为n;
获取每一用户在每一天所使用的项目;
根据每一用户在每一天所使用的项目对所述项目使用矩阵的各行元素进行填充。
3.一种多尺度临床路径挖掘装置,其特征在于,包括:
转换单元,用于将多个用户每天所使用的项目使用数据转换为项目使用矩阵,并将所述项目使用矩阵记为m*n,m表示所有所述用户的所有住院天数的加和,n表示所有项目的数量,所述项目使用矩阵中的每一行代表一个用户在一天中所使用的项目;
聚类单元,用于将所述项目使用矩阵中的每一行作为用户·天,并根据各所述用户·天之间的相似度对相似的用户·天进行聚类;
挖掘单元,用于使用聚类的核心对各所述用户的就医路径进行表示,并将各所述用户的就医路径进行序列化表示,然后从中挖掘出频繁序列,并将所述频繁序列作为主要临床路径;
所述聚类单元包括:
单词提取单元,用于获取每一所述用户·天中所使用的项目,并将获取到的项目作为单词;
单词向量表示单元,用于通过基于词向量的表示学习对每一所述用户·天中的所有单词进行向量表示,得到对应的单词向量;
词频加权单元,用于通过词频加权的方法对每一所述用户·天中的所有单词的单词向量进行加权,得到每一所述用户·天的句子向量,其中,词频加权的计算公式为:vday=dot(VI,TFIDF),其中vday表示所述用户·天的句子向量,VI表示所述用户·天内各个项目表示的矩阵,其中I为所述用户·天中项目的集合,VI的每一行表示一个项目的单词向量,dot表示元素的内积运算,TFIDF表示词频文章特异度矩阵;项目i的TFIDF计算公式为:其中Di表示包含项目i的用户·天的总数,D表示所有用户·天的总数,Ai表示包含项目i的总用户数量,A表示总用户数量;
距离聚类单元,用于根据各所述用户·天的句子向量之间的距离对相似的用户·天进行聚类;
所述挖掘单元包括:
核心表示单元,用于使用不同的数字对每一聚类的核心分别进行表示;
数字表示单元,用于将每一聚类下的所述用户·天使用对应聚类的核心的数字进行表示;
序列化表示单元,用于将数字表示后的每一用户·天进行序列化表示,得到就医路径序列;
简化单元,用于删除所述就医路径序列中连续相同元素且仅保留其中一个,得到简化后的就医路径序列;
序列挖掘单元,用于使用序列挖掘算法从所述就医路径序列中挖掘出频繁序列,并将所述频繁序列作为主要临床路径。
4.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至2中任一项所述的多尺度临床路径挖掘方法。
5.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至2任一项所述的多尺度临床路径挖掘方法。