欢迎来到知嘟嘟! 联系电话:13336804447 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13336804447
知嘟嘟经纪人
收藏
专利号: 2019102977517
申请人: 平安普惠企业管理有限公司
专利类型:发明专利
专利状态:授权未缴费
专利领域: 计算;推算;计数
更新日期:2024-04-28
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种数据清洗方法,其特征在于,包括:

获取待清洗数据,将所述待清洗数据转化为十进制数据,并根据所述待清洗数据携带的数据来源终端的标识,将转化为十进制的所述待清洗数据生成数据来源对应的待清洗数据表;

调取预设的数据清洗规则文件,提取与所述待清洗数据表的表名对应的数据清洗规则后给每一所述数据清洗规则生成对应的数据清洗执行代码;

将所述待清洗数据表中的每一条待清洗数据打上标签,为所述待清洗数据匹配相应的数据清洗规则;

解析每一所述待清洗数据的标签,执行所述数据清洗执行代码,对所述待清洗数据进行清洗,得到待存储数据;

将所述待存储数据以二进制数据形式进行存储。

2.如权利要求1所述的数据清洗方法,其特征在于,所述获取待清洗数据,将所述待清洗数据转化为十进制数据,并根据所述待清洗数据携带的数据来源终端的标识,将转化为十进制的所述待清洗数据生成数据来源对应的待清洗数据表,包括:按照预设的执行周期获取数据来源终端产生的待清洗数据,将所述待清洗数据转化为十进制数据;

提取所述待清洗数据中的偏移段字符串,根据所述偏移段字符串查找对应的偏移段,所述偏移段包括所述数据来源终端的标识;

根据预设的待清洗数据表与数据来源终端的标识的对应关系,将转化为十进制的所述待清洗数据生成所述数据来源终端对应的待清洗数据表。

3.如权利要求1所述的数据清洗方法,其特征在于,所述调取预设的数据清洗规则文件,提取与所述待清洗数据表的表名对应的数据清洗规则后给每一所述数据清洗规则生成对应的数据清洗执行代码,包括:调取所述预设的数据清洗规则文件;

从所述数据清洗规则文件中提取与所述待清洗数据表的表名对应的数据清洗规则,生成临时文件;

读取所述临时文件的第一条数据清洗规则,将所述数据清洗规则中的数据清洗规则伪代码作为条件判断的条件部分,生成与所述数据清洗规则对应的数据清洗执行代码;

遍历所述临时文件中所有的数据清洗规则,为每一条数据清洗规则生成对应的数据清洗执行代码,组合成完整的待清洗数据表的数据清洗执行代码。

4.如权利要求1所述的数据清洗方法,其特征在于,所述将所述待清洗数据表中的每一条待清洗数据打上标签,为所述待清洗数据匹配相应的数据清洗规则,包括:读取所述待清洗数据表中的一条待清洗数据作为待标记数据,为所述待标记数据设置初始标签值;

遍历所述待清洗数据表的表名对应的每一条数据清洗执行代码,所述待标记数据每触发一条数据清洗执行代码,则将其标签值增加2n,其中n为被所述待标记数据触发的数据清洗执行代码对应的数据清洗规则的规则序号;

按上述操作,遍历所述待清洗数据表中的每一条待清洗数据,为所述每一条待清洗数据打上标签。

5.如权利要求4所述的数据清洗方法,其特征在于,所述解析每一所述待清洗数据的标签,执行所述数据清洗执行代码,对所述待清洗数据进行清洗,得到待存储数据,包括:将所述待清洗数据的标签值与2n分别做与运算;

如果得到的结果为2n其本身,则说明该标签值对应的待清洗数据触发了n对应的数据清洗规则,执行所述n对应的数据清洗规则的数据清洗执行代码,对所述待清洗数据进行清洗,得到待存储数据。

6.如权利要求1所述的数据清洗方法,其特征在于,所述将所述待存储数据以二进制数据形式进行存储,包括:按照预设的十进制字符与十六进制字符的映射关系,分别使用对应的十六进制字符替换所述待存储数据中的每一个十进制字符,得到与所述待存储数据对应的待存储的十六进制数据;

确定所述待存储的十六进制数据以整型存储时的二进制数据,并将所述二进制数据进行存储。

7.如权利要求6所述的数据清洗方法,其特征在于,所述按照预设的十进制字符与十六进制字符的映射关系,包括:将十进制的0-9数字字符分别与十六进制的0-9数字字符相对应;

将十进制的符号字符分别与十六进制的A-F中的英文字母字符相对应;

其中,任意一个十进制字符与一个十六进制字符相对应,且任意两个不同的十进制字符分别对应的十六进制字符均不相同。

8.一种数据清洗装置,其特征在于,包括如下模块:

数据获取模块,设置为获取待清洗数据,将所述待清洗数据转化为十进制数据,并根据所述待清洗数据携带的数据来源终端的标识,将转化为十进制的所述待清洗数据生成数据来源对应的待清洗数据表;

清洗代码生成模块,设置为调取预设的数据清洗规则文件,提取与所述待清洗数据表的表名对应的数据清洗规则后给每一所述数据清洗规则生成对应的数据清洗执行代码;

清洗规则匹配模块,设置为将所述待清洗数据表中的每一条待清洗数据打上标签,为所述待清洗数据匹配相应的数据清洗规则;

数据清洗模块,设置为解析每一所述待清洗数据的标签,执行所述数据清洗执行代码,对所述待清洗数据进行清洗,得到待存储数据;

数据存储模块,设置为将所述待存储数据以二进制数据形式进行存储。

9.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被一个或多个所述处理器执行时,使得一个或多个所述处理器执行如权利要求1至7中任一项所述的数据清洗方法的步骤。

10.一种存储介质,其特征在于,所述存储介质可被处理器读写,所述存储介质存储有计算机可读指令,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个所述处理器执行如权利要求1至7中任一项所述的数据清洗方法的步骤。