欢迎来到知嘟嘟! 联系电话:13336804447 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13336804447
知嘟嘟经纪人
收藏
专利号: 2018111020223
申请人: 百度在线网络技术(北京)有限公司
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-02-23
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种用于获取目标数据的方法,包括:

从待处理数据集合中获取特征数据,其中,所述待处理数据包括至少两条属性信息,所述特征数据用于表征所述待处理数据集合中待处理数据的指定属性信息之间的关联关系;

根据最优提升度曲线确定对应所述特征数据的预测提升度值,其中,所述最优提升度曲线用于表征特征数据与预测提升度值之间的对应关系,所述最优提升度曲线包括第一曲线和第二曲线,所述第一曲线和第二曲线分别与不同的属性信息对应;

查询所述预测提升度值对应的属性信息,并根据该属性信息从所述待处理数据集合中选择待处理数据构建目标数据集合。

2.根据权利要求1所述的方法,其中,所述指定属性信息包括属性值,以及所述从待处理数据集合中获取特征数据,包括:按照属性值由大到小的顺序对所述待处理数据集合中待处理数据的指定属性信息进行排序,得到指定属性信息序列;

计算所述指定属性信息序列中相邻两条指定属性信息的属性值的差值,得到差值序列,并将差值序列的均值设置为对应所述指定属性信息序列的特征数据。

3.根据权利要求1所述的方法,其中,所述最优提升度曲线通过以下步骤获取:获取历史数据集合,其中,所述历史数据包括至少两条属性信息;

根据所述历史数据集合中的历史数据获取指定属性信息的基准提升度曲线;

对于所述至少两条属性信息中的、除所述指定属性信息以外的属性信息,获取该属性信息的、对应所述指定属性信息的参考提升度曲线;

响应于至少一条参考提升度曲线中存在与所述基准提升度曲线属于相同曲线类型、且与所述基准提升度曲线存在交叉点的参考提升度曲线,确定该参考提升度曲线与基准提升度曲线的特征区域,其中,特征区域通过交叉点、提升度基准线,以及交叉点和提升度基准线之间的曲线组成;

将交叉点的特征区域所在一侧的、特征数据取值大的曲线设置为第一曲线,将交叉点的特征区域所在的另一侧的、特征数据取值大的曲线设置为第二曲线,并通过所述第一曲线和第二曲线组成最优提升度曲线。

4.根据权利要求3所述的方法,其中,所述根据所述历史样本数据集合中的历史样本数据获取指定属性信息的基准提升度曲线,包括:将样本数据集合中的样本数据的指定属性信息作为输入,将所述样本数据集合中的样本数据的指定属性信息对应的样本提升度值作为输出,训练得到提升度模型;

将所述历史样本数据集合中的历史样本数据导入所述提升度模型,得到基准提升度曲线。

5.根据权利要求3所述的方法,其中,所述最优提升度曲线获取步骤还包括:将存在交叉点和特征区域的参考提升度曲线和基准提升度曲线设置为提升度曲线对;

响应于存在至少两组提升度曲线对,将所述至少两组提升度曲线对中提升度曲线对的特征区域的最大提升度值设置为上限提升度值,得到对应所述至少两组提升度曲线对的上限提升度值集合;

将所述上限提升度值集合中对应最大上限提升度值的提升度曲线对设置为参考提升度曲线对;

将所述参考提升度曲线对的交叉点的特征区域所在一侧的、特征数据取值大的曲线设置为第一曲线,将交叉点的特征区域所在的另一侧的、特征数据取值大的曲线设置为第二曲线,并通过所述第一曲线和第二曲线组成最优提升度曲线。

6.根据权利要求1至5任意一项所述的方法,其中,所述根据该属性信息从所述待处理数据集合中选择待处理数据构建目标数据集合,包括:对所述待处理数据集合中的该属性信息的属性值由大到小进行排序,得到对应该属性信息的属性信息序列;

从所述属性信息序列中选择前设定个属性信息对应的待处理数据作为目标数据构建目标数据集合。

7.一种用于获取目标数据的装置,包括:

特征数据获取单元,被配置成从待处理数据集合中获取特征数据,其中,所述待处理数据包括至少两条属性信息,所述特征数据用于表征所述待处理数据集合中待处理数据的指定属性信息之间的关联关系;

预测提升度值确定单元,被配置成根据最优提升度曲线确定对应所述特征数据的预测提升度值,其中,所述最优提升度曲线用于表征特征数据与预测提升度值之间的对应关系,所述最优提升度曲线包括第一曲线和第二曲线,所述第一曲线和第二曲线分别与不同的属性信息对应;

目标数据集合获取单元,被配置成查询所述预测提升度值对应的属性信息,并根据该属性信息从所述待处理数据集合中选择待处理数据构建目标数据集合。

8.根据权利要求7所述的装置,其中,所述指定属性信息包括属性值,以及所述特征数据获取单元包括:指定属性信息序列获取子单元,被配置成按照属性值由大到小的顺序对所述待处理数据集合中待处理数据的指定属性信息进行排序,得到指定属性信息序列;

特征数据获取子单元,被配置成计算所述指定属性信息序列中相邻两条指定属性信息的属性值的差值,得到差值序列,并将差值序列的均值设置为对应所述指定属性信息序列的特征数据。

9.根据权利要求7所述的装置,其中,所述装置包括最优提升度曲线获取单元,被配置成获取最优提升度曲线,所述最优提升度曲线获取单元包括:历史数据集合获取子单元,被配置成获取历史数据集合,其中,所述历史数据包括至少两条属性信息;

基准提升度曲线获取子单元,被配置成根据所述历史数据集合中的历史数据获取指定属性信息的基准提升度曲线;

参考提升度曲线获取子单元,对于所述至少两条属性信息中的、除所述指定属性信息以外的属性信息,被配置成获取该属性信息的、对应所述指定属性信息的参考提升度曲线;

特征区域确定子单元,响应于至少一条参考提升度曲线中存在与所述基准提升度曲线属于相同曲线类型、且与所述基准提升度曲线存在交叉点的参考提升度曲线,被配置成确定该参考提升度曲线与基准提升度曲线的特征区域,其中,特征区域通过交叉点、提升度基准线,以及交叉点和提升度基准线之间的曲线组成;

第一最优提升度曲线获取子单元,被配置成将交叉点的特征区域所在一侧的、特征数据取值大的曲线设置为第一曲线,将交叉点的特征区域所在的另一侧的、特征数据取值大的曲线设置为第二曲线,并通过所述第一曲线和第二曲线组成最优提升度曲线。

10.根据权利要求9所述的装置,其中,所述基准提升度曲线获取子单元包括:提升度模型训练模块,被配置成将样本数据集合中的样本数据的指定属性信息作为输入,将所述样本数据集合中的样本数据的指定属性信息对应的样本提升度值作为输出,训练得到提升度模型;

基准提升度曲线获取模块,被配置成将所述历史样本数据集合中的历史样本数据导入所述提升度模型,得到基准提升度曲线。

11.根据权利要求9所述的装置,其中,所述最优提升度曲线获取单元还包括:提升度曲线对设置子单元,被配置成将存在交叉点和特征区域的参考提升度曲线和基准提升度曲线设置为提升度曲线对;

上限提升度值集合获取子单元,响应于存在至少两组提升度曲线对,被配置成将所述至少两组提升度曲线对中提升度曲线对的特征区域的最大提升度值设置为上限提升度值,得到对应所述至少两组提升度曲线对的上限提升度值集合;

参考提升度曲线对设置子单元,被配置成将所述上限提升度值集合中对应最大上限提升度值的提升度曲线对设置为参考提升度曲线对;

第二最优提升度曲线获取子单元,被配置成将所述参考提升度曲线对的交叉点的特征区域所在一侧的、特征数据取值大的曲线设置为第一曲线,将交叉点的特征区域所在的另一侧的、特征数据取值大的曲线设置为第二曲线,并通过所述第一曲线和第二曲线组成最优提升度曲线。

12.根据权利要求7至11任意一项所述的装置,其中,所述目标数据集合获取单元包括:属性信息序列获取子单元,被配置成对所述待处理数据集合中的该属性信息的属性值由大到小进行排序,得到对应该属性信息的属性信息序列;

目标数据集合获取子单元,被配置成从所述属性信息序列中选择前设定个属性信息对应的待处理数据作为目标数据构建目标数据集合。

13.一种服务器,包括:

一个或多个处理器;

存储器,其上存储有一个或多个程序,

当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行权利要求1至6中任一所述的方法。

14.一种计算机可读介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至6中任一所述的方法。