基于随机森林的银行贷款数据分析

基于随机森林的银行贷款数据分析梁佩摘要:随着科学技术的快速发展,伴随着银行贷款的相关活动越来越频繁,但是贷款的拖欠及坏账的产生等现象出现,银行面临的贷款风险越来越大,而这时信用也越发显得重要。所以本文基于随机森林的方法将一批信贷数据进行数据分析,将1000个观测值分成两类,画出各个变量的重要性图,根据信用的好坏决定是否贷款,最后对这批数据做出总结与预测。关键词:银行贷款;信用风险;数据分析;分类;总结预测:F23:Adoi:10.19311/j.cnki.1672-3198.2020.33.0530引言在经济的快速发展的今天,人们的消费观念已经从以前的“有就用,没有就不用”转变为“提前消费”,因此很多人会选择银行贷款解决自己在创业、购房中遇到的经济问题,这样会暂时缓解他们的经济压力,同时银行会承担银行贷款所带来相应风险,其中主要的就是不良贷款,倘若不良贷款率过高,会对银行的正常运营有一定的影响,因此对客户信息进行判断是有必要,而且影响银行贷款的因素有很多种,例如,客户财产状况、贷款目的、住房情况、工作情况、信贷金额等。因此明白银行和客户之间存在一个问题:银行针对客户的情况进行判断客户是否能够成功贷款,判断的结果会有一定的误差,同时客户对于自己是否能够贷款存在疑问。因此为了解决这一情况,就需要对银行的贷款数据进行分析预测,在知道真实数据的情况下,利用随机森林模型对银行贷款数據进行分析预测,从而得到较好的预测模型。1基于随机森林的银行贷款数据模型构建1.1随机森林基本原理随机森林是根据bagging算法进行改变转化而来的,是一个树状的分类器{h(x,βk,k=1,…)},它是以自主法重采样为主,通过有放回地重复随机抽样组成一个有N个样本的新样本训练集合,再根据新的样本集构建出k个决策树,最终形成一个随机森林,最后由决策树投票的多少决定测试数据的分类结果,当有一个新的样本数据需要预测时,样本数据则需要经过随机森林中的每一棵决策树,最后在统计出的分类结果推断出可能性最大的分类。1.2随机森林模型的实现(1)观察数据,选择并使用的时是来自UCI数据库中的关于是否贷款的数据集进行随机森林算法分析,该数据集时关于银行贷款中的各个变量对客户贷款的影响情况,首先对本数据进行预处理。(2)利用R软件对数据集中的信息进行简要的概括,发现其中的有些变量并不是数据变量,并且最后一项是现实生活中的真实数据。在这个数据集中包含了1000个数据以及21个样本特征,为了更加了解V21变量,利用软件对V21进行分析,V21是真实结果,因此在本论文中它是作为结果变量,因此本文决定将样本中的“1”定义为“good”,“2”定义为“bad”,及对应客户是否贷款。(3)建立模型,利用R软件对数据集进行建模,建立模型的过程中可以利用既定公式构建模型,也可以根据数据构建模型,而本论文所所选用的方式是第一种,为了更好的体现出模型的预测精度和泛化能力,本论文将数据集中的700(约70%)的数据作为训练集,300(约30%)的数据作为测试集,并且利用测试集对模型的预测精度和泛化能力进行一个了解。随机森林模型的影响因素主要有两点:树的节点看和决策树m的数量,在本次建模中将其设为m=500,k=4,以这些条件构建随机森林模型1。在表1所示,我们可以得到该模型的总的袋外误分率为27.5%,并且由表显示模型将类别bad中120个判给good,预测误判率是62.83%,将类别good判给bad的由45个,预测误判率是11.00%。1.3随机森林结果分析及其模型的优化为了将模型的预测误判率降低,得到一个较好的模型,我们需要对模型1进行优化在上述过程中构建的随机森林模型并不是最优模型,因此我们需要对随机森林模型进行优化。有两个因素决定随机森林模型的预测能力:(1)第一个是决策树的节点,利用软件计算出在那个节点随机森林的误差率最小,即可得到最优节点,在R软件中,我们利用rate函数,展示出所有模型误判率的均值,通过图1可知随着树的节点的改变,在模型1的输出结果中可以得到该函数的默认节点的变量是4,并不是最优参数,但是由本数据构建的模型误判率均值最低的是在决策树的节点所选变量数为16时,因此在模型的优化过程中,模型的最...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

确认删除?