1.一种CNS药物关键特征识别方法,其特征在于,所述方法将支持向量机和贪心算法相结合,利用贪心算法逐步删除对提升预测结果作用最小的特征,进而准确筛选出区分CNS药物与non‑CNS药物小分子的关键特征;
所述方法包括:
步骤一、从CNS药物与non‑CNS药物小分子的所有特征中初步筛选出对区分二者有作用的特征;
步骤二、利用步骤一初步筛选出的对区分CNS药物与non‑CNS药物有作用的特征构建支持向量机模型并优化参数c和g,得到优化后的支持向量机模型;
步骤三、利用贪心算法逐步删除步骤一初步筛选出的对区分CNS药物与non‑CNS药物有作用的特征,从删除过程中筛选出区分CNS药物与non‑CNS药物的关键特征;
假设步骤一初步筛选出的对区分CNS药物与non‑CNS药物有作用的特征的个数为n;则所述步骤三包括:
3.1逐个删除每一个特征,得到n个不同的特征组合:{a2,a3,a4,…an},{a1,a3,a4,…an},{a1,a2,a4,…an},…{a1,a2,a3,a4,…an‑1};
3.2将所述n个不同的特征组合作为步骤二得到的优化后的支持向量机模型的输入向量,得到n个不同的特征组合分别对应的预测性能,并保留预测性能最好的一个特征组合;
3.3以3.2得到的预测性能最好的一个特征组合中的n‑1个特征执行3.1至3.2,以此循环直至n个特征被删除完毕;
3.4从上述3.1至3.3执行过程中选择预测性能最好的一个特征组合,该特征组合中的特征即为区分CNS药物与non‑CNS药物的关键特征。
2.根据权利要求1所述的方法,其特征在于,所述预测性能包括灵敏度SEN和特异性SPE;SEN表示CNS药物的预测率,SPE表示non‑CNS药物的预测率。
3.根据权利要求2所述的方法,其特征在于,所述3.2中保留预测性能最好的一个特征组合,包括:分别比较各个特征组合对应的SEN值和SPE值,选出最高的SEN值和SPE值;
若最高的SEN和SPE属于同一个特征组合,则保留这个特征组合;
若最高的SEN和SPE属于两个不同的特征组合,则根据两个不同的特征组合各自的SEN和SPE综合确定所要保留的特征组合。
4.根据权利要求3所述的方法,其特征在于,假设最高的SEN和SPE分别属于两个不同的特征组合A和B,则所述根据两个不同的特征组合各自的SEN和SPE综合确定所要保留的特征组合,包括:比较特征组合A的SPE和特征组合B的SEN;
若特征组合A的SPE大于特征组合B的SEN,则选择保留特征组合A;
若特征组合A的SPE小于特征组合B的SEN,则选择保留特征组合B;
若特征组合A的SPE等于特征组合B的SEN,则比较特征组合A的SEN和特征组合B的SPE的大小,选择较大者对应的特征组合。
5.根据权利要求4所述的方法,其特征在于,若两个特征组合的SPE相等、SEN也相等,则随机保留特征组合A或者特征组合B。
6.根据权利要求1‑5任一所述的方法,其特征在于,所述步骤一从CNS药物与non‑CNS药物小分子的所有特征中初步筛选出对区分二者有作用的特征,采用随机森林算法,使用信息增益率作为属性划分评价函数,进行初步特征选择。
7.根据权利要求1‑6任一所述的方法,其特征在于,所述步骤二采用穷举法得到优化后的支持向量机模型。
8.一种CNS药物分子设计方法,其特征在于,所述设计方法采用权利要求1‑7任一所述的方法识别CNS药物的关键特征。