1.一种多尺度临床路径挖掘方法,其特征在于,包括:
将多个用户每天所使用的项目使用数据转换为项目使用矩阵,并将所述项目使用矩阵记为m*n,m表示所有所述用户的所有住院天数的加和,n表示所有项目的数量,所述项目使用矩阵中的每一行代表一个用户在一天中所使用的项目;
将所述项目使用矩阵中的每一行作为用户·天,并根据各所述用户·天之间的相似度对相似的用户·天进行聚类;
使用聚类的核心对各所述用户的就医路径进行表示,并将各所述用户的就医路径进行序列化表示,然后从中挖掘出频繁序列,并将所述频繁序列作为主要临床路径。
2.根据权利要求1所述的多尺度临床路径挖掘方法,其特征在于,所述将多个用户每天所使用的项目使用数据转换为项目使用矩阵,并将所述项目使用矩阵记为m*n,包括:预先构建项目使用矩阵,其中,所述项目使用矩阵的行数为m,列数为n;
获取每一用户在每一天所使用的项目;
根据每一用户在每一天所使用的项目对所述项目使用矩阵的各行元素进行填充。
3.根据权利要求1所述的多尺度临床路径挖掘方法,其特征在于,所述将所述项目使用矩阵中的每一行作为用户·天,并根据各所述用户·天之间的相似度对相似的用户·天进行聚类,包括:根据所述项目使用矩阵计算各所述用户·天之间的相似度,根据各所述用户·天之间的相似度,构建得到各所述用户·天的距离矩阵,并将所述距离矩阵记为m*m;
根据所述距离矩阵对相似的用户·天进行聚类。
4.根据权利要求3所述的多尺度临床路径挖掘方法,其特征在于,所述根据所述项目使用矩阵计算各所述用户·天之间的相似度,根据各所述用户·天之间的相似度,构建得到各所述用户·天的距离矩阵,并将所述距离矩阵记为m*m,包括:从所述项目使用矩阵中抽取每一行的数据;
按顺序计算每一行的数据与所有行的数据之间的相似度;
将所述计算出的相似度按顺序进行排列,构建得到所述距离矩阵,并将所述距离矩阵记为m*m,其中,所述距离矩阵的第i行第j列元素dij表示第i个用户·天和第j个用户·天的距离。
5.根据权利要求3所述的多尺度临床路径挖掘方法,其特征在于,所述根据所述距离矩阵对相似的用户·天进行聚类,包括:使用层次聚类的方式将所述距离矩阵中最近的两个元素聚为一类,并遍历全部元素,实现全局的聚类。
6.根据权利要求1所述的多尺度临床路径挖掘方法,其特征在于,所述将所述项目使用矩阵中的每一行作为用户·天,并根据各所述用户·天之间的相似度对相似的用户·天进行聚类,包括:获取每一所述用户·天中所使用的项目,并将获取到的项目作为单词;
通过基于词向量的表示学习对每一所述用户·天中的所有单词进行向量表示,得到对应的单词向量;
通过词频加权的方法对每一所述用户·天中的所有单词的单词向量进行加权,得到每一所述用户·天的句子向量,其中,词频加权的计算公式为:vday=dot(VI,TFIDF),其中vday表示所述用户·天的句子向量,VI表示所述用户·天内各个项目表示的矩阵,其中I为所述用户·天中项目的集合,VI的每一行表示一个项目的单词向量,dot表示元素的内积运算,TFIDF表示词频文章特异度矩阵;项目i的TFIDF计算公式为:其中Di表示包含项目i的用户·天的总数,D表示所有用户·天的总数,Ai表示包含项目i的总用户数量,A表示总用户数量;
根据各所述用户·天的句子向量之间的距离对相似的用户·天进行聚类。
7.根据权利要求1所述的多尺度临床路径挖掘方法,其特征在于,所述使用聚类的核心对各所述用户的就医路径进行表示,并将各所述用户的就医路径进行序列化表示,然后从中挖掘出频繁序列,并将所述频繁序列作为主要临床路径,包括:使用不同的数字对每一聚类的核心分别进行表示;
将每一聚类下的所述用户·天使用对应聚类的核心的数字进行表示;
将数字表示后的每一用户·天进行序列化表示,得到就医路径序列;
删除所述就医路径序列中连续相同元素且仅保留其中一个,得到简化后的就医路径序列;
使用序列挖掘算法从所述就医路径序列中挖掘出频繁序列,并将所述频繁序列作为主要临床路径。
8.一种多尺度临床路径挖掘装置,其特征在于,包括:
转换单元,用于将多个用户每天所使用的项目使用数据转换为项目使用矩阵,并将所述项目使用矩阵记为m*n,m表示所有所述用户的所有住院天数的加和,n表示所有项目的数量,所述项目使用矩阵中的每一行代表一个用户在一天中所使用的项目;
聚类单元,用于将所述项目使用矩阵中的每一行作为用户·天,并根据各所述用户·天之间的相似度对相似的用户·天进行聚类;
挖掘单元,用于使用聚类的核心对各所述用户的就医路径进行表示,并将各所述用户的就医路径进行序列化表示,然后从中挖掘出频繁序列,并将所述频繁序列作为主要临床路径。
9.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的多尺度临床路径挖掘方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至7任一项所述的多尺度临床路径挖掘方法。