1.一种基于主成分分析和密度峰值聚类的垃圾邮件检测方法,其特征在于:包括如下步骤:步骤一,收集现有明确的垃圾邮件,将这些垃圾邮件收集到一个分析数据集内,将这些垃圾邮件的内容进行分解,将内容分解成一个个词条,形成词条集;
步骤二,对步骤一中形成的词条集进行聚类分析,分析出词条集中出现比较多的词条,计算每个较多词条的出现次数,并按照出现次数从大到小排列,形成垃圾词条集;
步骤三,在接收到邮件以后,分析该邮件的内容,并与步骤二中获得的垃圾词条集内部的词条进行比对,计算邮件内容中垃圾词条的占有情况;
步骤四,根据步骤三中获得的垃圾词条的占有情况判断邮件是否为垃圾邮件;所述步骤二中对词条集进行聚类分析的具体步骤如下:步骤二一,以字读音作为竖轴,字形为横轴构建分布坐标轴,将词条集内词条输入到分布坐标轴内,在分布坐标轴上构成数量相对应的聚类点;
步骤二二,以两个读音长度作为截断距离,计算步骤一种各个聚类点的局部密度,并选取出聚类中心,然后根据聚类中心对词条集内的词条进行聚类;所述步骤三中的比对步骤具体如下:步骤三一,将步骤二中的垃圾词条集内的垃圾词条按照出现次数从大到小进行标记,分别标记为显著词条、较显著词条和普通词条;
步骤三二,对步骤三一中标记好的显著词条、较显著词条和普通词条设置权值;
步骤三三,将邮件内容输入到词条集内,计算邮件内容中的显著词条、较显著词条和普通词条的出现次数,并将显著词条出现次数先与显著词条权值相比较,判断出现次数是否大于或等于显著词条权值,若大于或等于显著词条权值则判断为垃圾邮件;
步骤三四,若小于显著词条权值,则继续判断较显著词条出现次数与较显著词条权值相比较,判断出现次数是否大于或等于较显著词条权值,若大于或等于较显著词条权值则初步判断为垃圾邮件,发出垃圾邮件提醒供用户选择;
步骤三五,若小于较显著词条权值,则继续比较普通词条出现次数与普通词条权值,若出现次数大于或等于普通词条权值,则计算显著词条出现次数所占显著词条权值比例,若超过一半,则初步判断为垃圾邮件,发出垃圾邮件提醒供用户选择,若少于一半,则判断为待定邮件,发出待定邮件提醒用户判断;
步骤三六,若出现次数小于普通词条权值,则判断为普通邮件。
2.根据权利要求1所述的基于主成分分析和密度峰值聚类的垃圾邮件检测方法,其特征在于:所述步骤三二中设置权值的具体步骤如下:步骤三二一,提取显著词条、较显著词条和普通词条的出现次数;
步骤三二二,通过出现次数计算权值数值,具体的计算步骤为计算显著词条、较显著词条和普通词条的出现次数总和;
步骤三二三,将总和数值依次减掉显著词条、较显著词条和普通词条的出现次数,获得显著词条基础值、较显著词条基础值和普通词条基础值,计算显著词条基础值、较显著词条基础值和普通词条基础值的最大公约数,将显著词条基础值、较显著词条基础值和普通词条基础值均除于最大公约数的余数作为显著词条权值、较显著词条权值和普通词条权值。