欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2021103569599
申请人: 杭州初灵数据科技有限公司
专利类型:发明专利
专利状态:授权未缴费
专利领域: 计算;推算;计数
更新日期:2025-06-05
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于特征计算图的可视化机器学习特征提取系统,其特征在于:包括可视化前端界面和数据处理模块;可视化前端界面中包含了用于搭建特征计算图的三种节点控件,分别为Input节点、算子节点和Output节点;数据处理模块用于特征计算图对用户数据集进行处理;每个Input节点对应用户数据集的一列元素;算子节点具有多种不同的算法类型;

不同的算法类型的算子节点包含了对应的特征变换函数及其参数,用以对输入的数据进行变换。

2.根据权利要求1所述的一种基于特征计算图的可视化机器学习特征提取系统,其特征在于:按算法类型进行分类,所述的算子节点包括数据缩放节点、离散化节点、向量化节点、函数变换节点和降维节点;所述的数据缩放节点根据预设的参数对输入的数据进行标准化或归一化运算;离散化节点根据预设的参数对输入的数据进行等距分桶、等频分桶或二值化处理;其中,等距分桶和等频分桶需要设置的参数为分桶数量,二值化需要设置的参数为阈值,将输入数据中大于或等于阈值的部分将被统一变换为1,小于阈值的部分将被统一变换为0;向量化节点根据预设的参数对输入的数据进行独热编码或词向量变换;其中,词向量变换对应有词向量库;函数变换节点根据预设的参数对输入的数据进行对数变换和指数变换,其中对数变换需要设置的参数为底数;指数变换需要设置的参数为指数;降维节点通过主成分分析法或tSNE对输入的数据进行降维;其中,主成分分析法需要设置的参数为主成分数;tSNE需要设置的参数为目标维度。

3.根据权利要求1所述的一种基于特征计算图的可视化机器学习特征提取系统,其特征在于:在初始的可视化前端界面中,呈现出由列名称构成的多个Input节点,以及一个Output节点,且可视化前端界面上呈现算子工具箱;算子工具箱通过分类展示的方式布置有各个算子节点。

4.根据权利要求1所述的一种基于特征计算图的可视化机器学习特征提取系统,其特征在于:所述Input节点的数据类型为数值型或类别型;所述算子节点的输入数据类型与Input节点的数据类型相同。

5.根据权利要求1所述的一种基于特征计算图的可视化机器学习特征提取系统,其特征在于:特征计算图由Input节点、一个或多个算子节点和Output节点拼接得到;各Input节点通过一个或多个算子节点连接到Output节点;每个Input节点对应用户数据集中一列数据。

6.根据权利要求1所述的一种基于特征计算图的可视化机器学习特征提取系统,其特征在于:所述的用户数据集中具有一个自动生成的ID列作为行标识。

7.根据权利要求1所述的一种基于特征计算图的可视化机器学习特征提取系统,其特征在于:Input节点具有一个或多个输出端,用以连接到后续的一个或多个节点;Output节点具有一个或多个输入端;算子节点具有一个或多个输入端,以及一个或多个输出端;算子节点的输入端连接到对应的Input节点或前一级的算子节点,输出端连接到后一级算子节点或Output节点。

8.一种基于特征计算图的可视化机器学习特征提取方法,其特征在于:步骤一、使用者根据特征提取目标,利用如权利要求1所述的可视化机器学习特征提取系统通过拖动不同节点的方式搭建特征计算图;各Input节点通过一个或多个算子节点连接到同一个Output节点;各算子节点的类型与用户数据集需要被提取的特征对应,由使用者根据需要进行选择;用户数据集在输入各Input节点前添加一个ID列;Input节点的数量与用户数据集的列数对应;每个Input节点输入用户数据集的ID列和对应的一列元素;对于具有多个子节点的算子节点或Output节点,其输入数据为各子节点输出数据按列合并后得到的数据;子节点表示当前的Output节点或算子节点前一级的各算子节点或Input节点;

步骤二、数据处理模块对用户数据集采用图深度优先搜索方法从Output节点向前逐个访问节点进行计算,具体过程如下:

2‑1.从Output节点开始,逐级向前调用子节点的fit方法,直至各Input节点均被调用fit方法;fit方法表示计算节点的输入数据对应的统计量的过程;执行fit方法时将调用子节点的transform方法;transform方法表示执行节点自身对应的数据变换的过程;

2‑2.从Output节点开始,逐级向前调用子节点的transform方法,使得Output节点输出经过特征提取后的结果数据集。

9.根据权利要求8所述的一种基于特征计算图的可视化机器学习特征提取方法,其特征在于:特征计算图构造完成时以及每个节点完成fit方法时,均构造一个json对象;各json对象合并形成总的json文件;在步骤二执行后,若需要对新的用户数据集进行特征提取时,则利用json文件直接完成各节点的fit方法部分,仅进行transform方法。