1.一种传染病流行风险预测分析方法,其特征在于,包括以下步骤:步骤一、信息采集;
S101、传染病等级分类
将传染病等级设定为轻症、重症、死亡三个等级;
S102、从疾控中心获取所有的传染病疾病数据和传染病患者个人数据,同时根据传染病等级分类情况将所有数据分类存储在数据库中;
S103、根据传染病等级分类情况对应采集各等级传染病患者临床数据,同时存储在数据库中;
步骤二、运用TF‑IDF算法实现文本特征向量化处理;
S201、将传染病疾病数据进行文本特征向量化处理S2011、分别计算每项传染病疾病数据出现的频率,计算公式如下:其中,TFn为在24小时之内第n项传染病疾病数据出现的频率,Nn为在24小时之内第n项传染病疾病数据被测量的次数,N为在24小时之内所有传染病疾病数据被测量的次数;
S2012、分别计算每项传染病疾病数据对应的逆文档频率,计算公式如下:其中,IDFn为第n项传染病疾病数据的逆文档频率,Mn为数据库中所有数据总数,M为数据库中传染病疾病数据总数;
S2013、分别计算每项传染病疾病数据对应的TF‑IDF值,计算公式如下:S202、将传染病患者个人数据进行文本特征向量化处理S2021、分别计算每项传染病患者个人数据出现的频率,计算公式如下:其中,TFm为在24小时之内第m项传染病患者个人数据出现的频率,Pm为在24小时之内第m项传染病患者个人数据被测量的次数,P为在24小时之内所有传染病疾病数据被测量的次数;
S2022、分别计算每项传染病患者个人数据对应的逆文档频率,计算公式如下:其中,IDFm为第m项传染病患者个人数据的逆文档频率,Sm为数据库中所有数据总数,S为数据库中传染病患者个人数据总数;
S2023、分别计算每项传染病患者个人数据对应的TF‑IDF值,计算公式如下:S203、将传染病患者临床数据进行文本特征向量化处理S2031、分别计算每项传染病患者临床数据出现的频率,计算公式如下:其中,TFi为在24小时之内第i项传染病患者临床数据出现的频率,Qi为在24小时之内第i项传染病患者临床数据被测量的次数,Q为在24小时之内所有传染病患者临床数据被测量的次数;
S2032、分别计算每项传染病患者临床数据对应的逆文档频率,计算公式如下:其中,IDFi 为第i项传染病患者临床数据的逆文档频率,Ei为数据库中所有数据总数,E为数据库中传染病患者临床数据总数;
S2033、分别计算每项传染病患者临床数据对应的TF‑IDF值,计算公式如下:步骤三、构建传染病流行风险预测模型;
S301、采用随机森林算法对所有数据对应的TF‑IDF值即数字特征向量进行决策树构建;
S3011、训练集构建
分别对传染病疾病数据、传染病患者个人数据、传染病患者临床数据构建训练集;设定传染病疾病数据的总数为X、传染病患者个人数据的总数为Y、传染病患者临床数据的总数为Z,则对应的传染病疾病数据TF‑IDF值的总数为X、传染病患者个人数据TF‑IDF值的总数为Y、传染病患者临床数据TF‑IDF值的总数为Z,则采用有放回地随机抽样方法在X个传染病疾病数据TF‑IDF值中有放回地取样X次,在Y个传染病患者个人数据TF‑IDF值中有放回地取样Y次,在Z个传染病患者临床数据TF‑IDF值中有放回地取样Z次,将取样后的数据作为训练集;
S3012、测试集构建
在取样过程中未被取样的数据作为测试集;
S3013、采用训练集和测试集完成多棵决策树的构建;
S302、将多棵决策树合并融合在一起生成随机森林模型,即为传染病流行风险预测模型;
步骤四、运用Savitzy‑Golay算法实现模型优化处理;
S401、将随机森林中的任意一棵决策树的所有节点分别设为a0、a1、a2…aj,则这一棵决
2 j
策树所对应的拟合曲线方程为y=a0+a1x+a2x+…ajx;
S402、根据上述的拟合曲线方程将所有决策树上的所有节点分别用拟合曲线方程的形式来表示;
S403、以每j+1个节点为一组重复进行,每进行一次则去掉最左边的一个点,然后从最右边再增加一个点,如此重复进行,直到结束;
S404、利用卷积算法求出拟合曲线方程的多项式系数;
步骤五、风险预测;
根据优化后的传染病流行风险预测模型,输入目前的各等级传染病患者临床数据,输出传染病流行风险预测概率,完成传染病风险预测;
步骤六、风险预警;
根据传染病流行风险预测概率,通过网络或短信形式发出紧急程度预警或不进行预警。