1.一种基于云计算的数据统计管理方法,其特征在于,所述方法包括以下步骤:
步骤S1:将服务器编号导入到系统中,当服务器保存了需要统计的所有数据后,服务器显示出完整的数据标识;系统根据单位时间内计算出的数据总数判断是否获取数据;在计算出的数据总数小于系统开始进行数据统计的最低数据数量时,经过系统设定好的时间T1后开始获取数据;
步骤S2:系统通过数据的编码范围将不属于编码范围的数据判定为乱码数据,再与导入常规词汇的数据库进行比对筛选出非常规数据;将乱码数据和非常规数据返回服务器进行更改再重新传输到系统;系统二次筛选传输回来的数据,将未更改的非常规词汇写入数据库中;
步骤S3:系统对服务器提供分类标准的数据根据分类标准进行分类,保存服务器提供的新的分类标准;对未提供分类标准的数据由系统学习历史的分类标准判断出所述数据对应的分类标准,根据所述分类标准对所述数据进行分类;
步骤S4:统计根据分类标准分类后得到的每一类数据数量,计算出每一类数据的数量占比;在系统获取到新的数据时,将增加数据添加到对应的类别中,实时更改每一类的数据数量和数量占比,并将最后的结果以图表的形式发送给服务器。
2.根据权利要求1所述的一种基于云计算的数据统计管理方法,其特征在于:所述步骤S1中,系统获取服务器中保存的数据,包括以下步骤:步骤S11:将服务器编号导入到系统中,当服务器中保存了需要系统进行统计的全部数据时,服务器中显示出一个完整的数据标识;
步骤S12:系统每隔单位时间对各个服务器保存的数据数量进行计算,设定为第个服务器中保存的数据数量,为服务器的总数,N总为所有服务器保存的数据总数;根据公式:步骤S12:设定系统开始进行数据统计的最低数据数量为;当时,系统经过后开始获取所有服务器中保存的数据;当时,系统直接获取所有服务器中保存的数据;
步骤S13:系统生成集合,其中表示编号为的服务器的数据集合;系统将服务器中的数据传输到集合中。
3.根据权利要求1所述的一种基于云计算的数据统计管理方法,其特征在于:所述步骤S2中,在获取的所有数据中筛选出错误数据,包括以下步骤:步骤S21:根据服务器的编号顺序将数据转化成字符串的形式,并按照字符串排列顺序对每一个字符进行判定;根据系统的编码方式,判定任意一个字符是否属于系统的编码范围内;如果属于系统的编码范围,则判定所述数据为正常数据;如果不属于系统的编码范围,则判定所述数据为乱码数据;
步骤S22:导入包含常规词组的数据库,当正常数据为数字时,则直接跳过对比;当正常数据包含非数字字符,则与数据库进行逐条对比;将包含非数字字符的正常数据拆分成若干个词组,当数据库中存在所有所述词组时,则判定所述正常数据为正确数据;当数据库中不存在某一词组时,则判定所述正常数据为包含非常规词汇的数据;
步骤S23:根据服务器的编号建立集合,将判定为乱码数据和包含非常规词汇的数据放入相应的集合中,将所述集合发送回服务器;
步骤S24:服务器将判定为乱码数据的数据根据系统的编码方式进行修改,将包含非常规词汇的数据与服务器中的原数据进行比对,判断是否出现错误进行修改;
步骤S25:服务器将所有错误数据处理完成后,重新发送回系统由系统进行二次筛选;
步骤S26:系统重新接受修改后的数据,重复步骤S21、S22;当包含非常规词汇的数据修改后与原有数据保持一致,则将所述数据中的非常规词汇写入包含常规词汇的数据库中。
4.根据权利要求1所述的一种基于云计算的数据统计管理方法,其特征在于:所述步骤S3中对筛选完成的数据进行分类,包括以下步骤:步骤S31:设定一个阈值,表示服务器需要上传分类标准的次数;设编号为的服务器已经上传分类标准的次数为;
当时,或者且编号为的服务器中存在分类标准时,系统读取编号为的服务器的分类标准,将所述分类标准分解为个关键词,根据关键词的个数在集合中生成个子集;对数据进行逐一对比,当数据满足第个关键词时,则将所述数据写入子集中;
步骤S32:系统统计编号为的服务器的分类标准中第种分类标准的次数;取的最大值,将所述第种分类标准标记为编号为的服务器的默认分类标准;对比相同分类标准的数据,检索出同时存在的关键词,计算出所述关键词的数量在集合中的占比,根据公式:其中,n为所述关键词的数量,为集合中的数据数量;设定一个阈值,当,系统将所述关键词与所述分类标准进行匹配并保存在系统中;
步骤S33:当且服务器中不存在分类标准时,系统将数据与保存在系统中的关键词进行比较,当存在所述关键词匹配到一个分类标准时,则将所述关键词匹配的分类标准作为数据的分类标准;
当数据中存在的关键词匹配到多个分类标准时,系统统计第p种分类标准所匹配的关键词在数据中的占比,设为第p种分类标准所匹配的第个关键词数量,r为某一分类标准所匹配的关键词个数,根据公式:对比第p种分类标准所匹配的关键词在数据中的占比θ’p;选取最大值对应的分类标准作为数据的分类标准;当对比结果中第p种分类标准所匹配的关键词在数据中的占比存在q个相同的最大值时,系统则将q个相同最大值对应的分类标准同时作为数据的分类标准,即将数据分类q次;
步骤S34:若数据中不存在关键词,则将编号为的服务器的默认分类标准作为对集合中数据的分类标准;
步骤S35:当存在数据不满足所有关键词时,系统在集合中生成一个新的子集,将所有不满足关键词的数据写入子集。
5.根据权利要求1所述的一种基于云计算的数据统计管理方法,其特征在于:所述步骤S4中对分类好的数据进行统计,包括以下步骤:步骤S41:统计集合中个子集的数据数量为,设s为集合中不包含子集的子集个数,计算出每个子集在集合中的数据数量占比;当存在子集,统计子集的数据数量为;根据公式:其中,子集在集合中的数据数量占比;
步骤S42:系统每隔一个单位时间检测各个服务器中是否存在完整的数据标识,若某些服务器中不存在完整的数据标识,则获取所述服务器中的增加的数据传输到系统中;
步骤S43:当系统汇入了新的数据时,系统统计新的数据中分类到子集中的数量为,计算出每个子集在集合中的数据数量占比,根据公式:其中,子集在集合中的数据数量占比;
步骤S44:将得到的子集的数据数量和数据数量占比以图表的形式进行整合,整合完成后发送给服务器。
6.应用于权利要求1-5中任一项所述的一种基于云计算的数据统计管理方法的数据统计管理系统,其特征在于,所述系统包括数据获取模块、错误数据筛选模块、分类模块、实时增加数据模块和统计模块;
所述数据获取模块用于根据所有服务器中保存数据的总数或者经过单位周期获取每个服务器中保存的数据;
所述错误筛选模块用于筛选出所有数据中的乱码数据和包含非常规词汇的数据,返回到服务器进行检查更改后进行二次传输到系统中,系统将比对正确的非常规词汇写入数据库;
所述分类模块用于在服务器上传分类标准的次数小于设定的阈值或者服务器提供分类标准时,系统读取服务器的分类标准,将分类标准分解成若干个关键词,根据关键词对数据进行比对并分类;当系统在服务器上传分类标准的次数大于设定的阈值时,系统匹配历史的分类标准与对应的关键词,将数据与关键词对比,判断出数据的分类标准;
所述实时增加数据模块用于系统在数据统计的过程中每隔一个单位周期对服务器进行检测,判断是否存在完整的数据标识,若不存在完整的数据标识,则将服务器中增加的数据汇入系统一起分类和统计;
所述统计模块用于对已经分类好的数据进行统计并计算数据数量和数据数量占比,生成图表发送回服务器。
7.根据权利要求6所述的数据统计管理系统,其特征在于:所述数据获取模块包括了统计数据数量单元和数据获取单元;
所述统计数据数量单元用于根据所有服务器中的数据总数判断是否进行数据获取;所述数据获取单元用于在所有服务器中的数据总数大于系统开始进行数据统计的最低数据数量时进行直接获取数据,或者在经过设定时间后获取数据。
8.根据权利要求6所述的数据统计管理系统,其特征在于:所述错误筛选模块包括了乱码数据单元和包含非常规词汇数据单元;
所述乱码数据单元用于对数据的编码范围进行判断,在数据不满足系统的编码范围时,判断所述数据为乱码数据;所述包含非常规词汇数据单元用于将数据与数据库中的常规词汇进行对比,对比失败则将所述数据传输回服务器进行更改并传回系统,系统检测数据是否发生更改,若没有更改则将数据中的非常规词汇写入数据库。
9.根据权利要求6所述的数据统计管理系统,其特征在于:所述分类模块包括了标准分类单元和自适应分类单元;
所述标准分类单元用于由服务器提供分类标准将数据进行分类,所述自适应分类单元用于系统根据服务器的历史分类标准判断服务器提供数据的所需分类标准,并对服务器提供的新分类标准进行保存。