集成学习框架下的个人信用评分模型研究

集成学习框架下的个人信用评分模型研究陈磊范宏[摘要]在大数据时代背景下,建立适当的个人信用评分模型对用户违约风险进行有效预测,对于预防互联网金融风险极其重要。文章基于人工智能前沿技术,引入Bagging、Boosting以及Stacking集成学习框架来构建个人信用评分模型,---本文来源于网络,仅供参考,勿照抄,如有侵权请联系删除---并在融360平台近3.5万的用户贷款数据集上进行实证研究。首先,选用随机森林、GBDT以及XGBoost算法分别建立了单一信用评分模型;其次,将以上三种同质集成树算法作为Stacking异质集成框架第一层的基分类器,以Logisticregression为第二层的元分类器,进行模型融合。结果表明,Stacking异质集成模型在三种评估角度下均表现优异。[关键词]信用评分模型;同质集成算法;异质集成算法;随机森林;GBDT;XGBoost[DOI]10.13939/j.cnki.zgsc.2020.20.1641引言近年来,互联网金融在我国发展势头猛烈,但繁荣与风险往往相伴而生,那些隐藏的风险也不容小觑。特别地,针对信贷领域的个人违约风险,需要建立大数据时代下的高精度个人信用评分模型对用户个人信贷风险进行有效预测。针对单一算法的预测效果有限且泛化能力不佳,Stephen(2010)指出集成学习算法能有效降低偏差、方差,提升信用风险评估模型的准确度与稳定性[1]。当下比较流行的集成方法是基于不同训练集将若干个同一类型的弱分类器融合成一个强分类器的同质集成学习算法,主要分为Bagging和梯度提升Boosting这两大族。后来,周志华研究发现,Stacking异质集成学习框架更为强大,可通过某种策略将多个不同的分类器融合在一起[2]。2集成学习框架下的个人信用评分模型2.1算法机理本文选用的基分类器是Bagging并行训练决策树得到的随机森林,Boosting串行训练决策树得到的GBDT以及改进GDBT后得到的XGBoost。Boosting集成技术主要以降低偏差为主,其集成的模型在拟合能力上更有优势;Bagging集成技术主要是降低方差,其集成的模型有更优秀的泛化能力。不同于Boosting和Bagging这两种采用相同的分类算法训练单个分类器的同质集成方式,Stacking属于一种异质集成方法,通过融合不同的基分类器,以修正其偏差的---本文来源于网络,仅供参考,勿照抄,如有侵权请联系删除---方式提高模型的泛化能力。从结构上看,Stacking集成框架是一种分层结构,将第1层的分类器称为基分类器,而第2层用于结合的分类器则称为元分类器。2.2数据及特征处理本文的实验数据来源于融360网络金融服务公司,全部样本量有33465万,其中,30465条数据是有类别标签的被接受客户样本,这30465个接受样本中违约样本有1837个,履约样本有28628个,违约率为6.03%;有类别标签的被拒绝客户样本数据有3000条,这3000条拒绝样本中违约样本有361个,履约样本有2639个,违约率达到12.03%。本文的数据集中测试集的构成是1300个有类别标签的接受样本与3000个有类别标签的拒绝样本,即本文实证划分出的训练集是29165个有类别标签的接受样本,测试集是4300条有类别标签的接受/拒绝样本数据。在特征工程阶段,首先,将每个样本包含的6745维特征用变量f1.f6745来进行特征转换。其次,选择皮尔森相关系数分析法结合未训练的XGBoost重要特征筛选法来做特征筛选,本文筛选出2000个特征作为建模输入。2.3超参数优化分类模型训练的重点之一就是确定并优化超参数集。由于本文选用的基分类器都是树模型,因此确定需要优化的超参数有:单棵树的最大深度(max_depth)、树的学习率(learningrate)、树的数目(n_estimators)以及随机采样率(Subsample)。实验采用gridsearch法来调节超参数,得到如下的最优超参数集为:Randomforest、GBDT、XGBoost的max_depth分别为5、6、10;learningrate分别为无、0.061、0.1;n_estimators分别为100、180、400;Subsample分别为无、0.998、0.904。2.4评价结果分析---本文来源于网络,仅供参考,勿照抄,如有侵权请联系删除---本文的评价标准主要是三个方面:一是误判经济成本的角度来评价模型的分类效果,选用的指标是第Ⅰ类错误率;二是模型在正类预测上的性能的角度,选用的指标...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

文秘专家
机构认证
内容提供者

1

确认删除?