欢迎来到知嘟嘟! 联系电话:13336804447 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13336804447
知嘟嘟经纪人
收藏
专利号: 2021105411274
申请人: 重庆邮电大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-02-23
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于多源数据联邦学习的贷款风险评估方法,其特征在于,该方法包括以下步骤:

S1:使用多方数据源参与到贷款风险评估任务中,分别对多方数据源进行预处理以及数据样本加密对齐;

S2:分析和提取多方数据源关于贷款风险评估相关的特征,建立贷款用户风险画像并构建贷款风险评估体系;

S3:构建基于Lightgbm的联邦学习模型,即Lightgbm树模型,使用Lightgbm树模型对多方数据源进行联合训练,同时与中心服务器交换参数,更新训练过程;

S4:综合多方数据源的训练结果构建的Lightgbm树模型,预测用户的违约情况作为用户贷款风险的判别结果。

2.根据权利要求1所述的基于多源数据联邦学习的贷款风险评估方法,其特征在于,步骤S1中,所述的多方数据源包括:银行数据源、消费平台数据源、公积金管理中心数据源、房管局房产交易中心数据源、移动运营商数据源和贷款平台数据源。

3.根据权利要求1所述的基于多源数据联邦学习的贷款风险评估方法,其特征在于,步骤S1中,对数据进行预处理,包括:统计数据项缺失值比例,对缺失值进行填补,数据类型转换并使用RobustScaler进行归一化处理。

4.根据权利要求1所述的基于多源数据联邦学习的贷款风险评估方法,其特征在于,步骤S1中,所述数据样本加密对齐,包括:不同数据源在不交换数据的情况下进行样本对齐,参与训练的数据源在不交换数据的前提下找到共同的样本,将样本与特征对齐。

5.根据权利要求1所述的基于多源数据联邦学习的贷款风险评估方法,其特征在于,步骤S2中,建立贷款用户风险画像并构建贷款风险评估体系,具体包括:针对多源数据构建用户贷款风险评估的特征;各方数据源针对其本地的数据分别提取相关风险特征,并分别建立贷款用户风险画像;

使用K‑means方法对特征进行聚类,通过聚类后产生的用户分群,再结合之前的特征构建用户风险画像同时建立贷款风险评估的准则,构建出贷款风险评估体系。

6.根据权利要求5所述的基于多源数据联邦学习的贷款风险评估方法,其特征在于,所述的K‑means方法,具体包括:通过选择K个点作为初始聚类中心,将每个对象分配到最近的中心形成K个簇,并重新计算每个簇的中心,重复以上的步骤,直到K‑means的目标函数达到最优或者到达设置的迭代次数;

K‑means的目标函数为:

其中,ci为计算得到的簇的中心,x为数据对象的样本,dist(·)表示各个数据样本之间与簇中心的距离。

7.根据权利要求1所述的基于多源数据联邦学习的贷款风险评估方法,其特征在于,所述步骤S3具体包括以下步骤:

S31:中心服务器对训练的参数进行初始化设置,同时对各方数据源的权重也需要进行初始化设置;

S32:中心服务器利用同态加密算法生成公钥和私钥,向各方数据源发送参数,利用公钥加密传输参数;

S33:各方数据源通过同态加密算法进行加密,对中心服务器发送的加密参数进行使用私钥进行解密,然后使用Lightgbm树模型对多方数据源的特征数据与携带标签信息的数据源进行联邦训练。

8.根据权利要求7所述的基于多源数据联邦学习的贷款风险评估方法,其特征在于,所述步骤S33具体包括:各方数据源使用其本地的样本数据联合构建Lightgbm树模型,并在各训练阶段将参数进行同态加密后传递至中心服务器;

数据源在构建Lightgbm树模型时,针对各方数据源的本地数据,将其数据特征作为树模型的节点;其中要判断当前节点是否为叶子节点,若当前节点已经是叶子节点,则停止分裂将参数传递至中心服务器,由中心服务器进行判断预测结果;若当前节点为非叶子节点,则需要由中心服务器和各方数据源一起参与进行最优节点的划分;各方数据源通过比较分割点的分裂收益确定自己的最优局部分割节点,分裂收益的计算公式如下:其中,G和H分别表示将Lightgbm梯度展开后的一阶导值和二阶导值,L表示分裂后的左节点,R表示分裂后的右节点,λ和γ为训练过程中的超参数;

然后,各方数据源通过建立梯度直方图的方式寻找最优分割节点;寻找最优分割节点过程,直到构建得到最后的叶子节点,停止训练得到多个数据参与方联合训练的Lightgbm树模型;

完整的树模型由全部的数据源的树的并集构成,即Ti∈T,i=1,2,3…,Ti表示第i个数据源的局部树模型。

9.根据权利要求8所述的基于多源数据联邦学习的贷款风险评估方法,其特征在于,建立直方图的具体步骤为:

(1)首先需要对各方数据源中的连续浮点特征值进行离散化分桶,即将整个值的范围分成一系列间隔;

(2)计算每个桶中的样本梯度之和并对桶中的样本进行计数;

(3)对于某个叶节点,遍历所有的桶,分别以当前桶作为分割点,累加其左边至当前的桶的梯度和以及样本数量,并与父节点上的总梯度和以及总样本数量相减,得到右边所有桶的梯度和以及样本数量,并以此计算增益,在遍历过程中,取最大的增益,以此时的特征和桶的特征值作为分裂节点的特征和分裂特征取值;

(4)对所有的叶节点,重复上述步骤,遍历所有的特征,完成直方图的建立,进而找到增益最大的特征及其划分值,以此来确定分裂该叶节点的标准。

10.根据权利要求1所述的基于多源数据联邦学习的贷款风险评估方法,其特征在于,步骤S4中,预测时对构建的Lightgbm树模型进行一轮集体通信,每个预测样本从各自树的根节点开始预测,通过检查分枝阈值确定进入其左子树或者右子树,递归的执行树节点的路径,直到落入树模型的叶子节点;最后根据构建的Lightgbm树模型预测输出贷款用户的风险概率值。