跳过导航

使用 Azure HDInsight Spark 群集实现贷款冲销预测

冲销贷款是指债权人(通常是贷款机构)宣布的不太可能收回的一些债务,通常出现在债务人严重拖欠贷款时。鉴于高冲销会对贷款机构的年终财务状况产生负面影响,贷款机构通常会密切监测贷款冲销风险,以防发生贷款冲销。借助 Azure HDInsight R Server,贷款机构可以利用机器学习预测分析来预测出现贷款冲销的可能性,并对存储在 HDFS 和配置单元表中的分析结果运行报告。

说明

注意:如果已部署此解决方案,请单击此处查看你的部署。

估计预配时间:25 分钟

此解决方案将使用 Microsoft R Server 创建一个 HDInsight Spark 群集。群集可包含 2 个头节点、2 个辅助节点、1 个边缘节点,总共包含 32 个核心。此 HDInsight Spark 群集的成本约为 $8.29/小时。创建群集后即开始计费,删除群集时结束计费。群集每分钟按比例收费,因此不再使用群集时请务必将其删除。完成后,使用“部署”页删除整个解决方案。

概述

贷款机构掌握贷款冲销预测数据具有诸多好处。贷款冲销是银行针对严重拖欠贷款的行为采取的最后手段,有了预测数据,贷款人员可提供个性化的激励措施(如降低利率或延长还款期),进而帮助客户继续偿还贷款,防止出现贷款冲销。为获得这类预测数据,信用社或银行通常会根据客户的历史还款记录人工提取出数据,并进行简单的统计回归分析。此方法很容易造成数据编译错误,且统计的数据并不可靠。

该解决方案模板展示了一个端到端的解决方案,可对贷款数据进行预测分析,并评估出冲销概率。Power BI 报告还将显示信贷分析和趋势,以及对冲销概率的预测。

业务方面

此贷款冲销预测使用模拟的贷款历史数据来预测在不久的将来(未来三个月)贷款冲销的概率。得分越高,未来贷款被冲销的概率越高。

通过分析数据,信贷经理还可以了解分支机构贷款冲销的趋势和分析情况。了解高冲销风险贷款的特点后,信贷经理可针对特定地区制定贷款业务计划。

HDInsight Spark 群集上的 Microsoft R Server 提供用于大数据的分布式可缩放机器学习功能,可利用融为一体的 R Server 和 Apache Spark 强大功能。本解决方案演示了如何通过开发机器学习模型(包括数据处理、功能设计、训练和评估模型)预测贷款冲销、如何在边缘节点上将模型部署为 Web 服务,以及如何在 Azure HDInsight Spark 群集上通过 Microsoft R Server 远程使用 Web 服务。最后的预测结果保存在 Hive 表中,可在 Power BI 中直观显示该表。

Power BI 还提供有关贷款偿还和冲销预测的可视化摘要(此处显示的是模拟数据)。可单击右侧的“立即试用”按钮试用此仪表板。

数据科学家方面

本解决方案模板逐步演示了使用模拟的贷款历史数据集来构建预测分析,从而预测贷款冲销风险的端到端过程。该数据包括贷款持有者人口统计数据、贷款金额、合同贷款期限和贷款偿还历史记录等信息。该解决方案模板还包括一组 R 脚本,用于执行数据处理、功能设计以及多种不同算法,可训练数据,并最终选择最佳性能模型对数据进行评分,从而为每个贷款生成概率评分。该解决方案还包括一些脚本,用于将模型部署为 Web 服务(在边缘节点上),并在 Azure HDInsight Spark 群集上通过 Microsoft R Server 远程使用该 Web 服务。

负责测试此解决方案的数据科学家可以在基于浏览器且在 Azure HDInsight Spark 群集的边缘节点上运行的开源版本 RStudio Server 中使用提供的 R 代码。用户可以通过设置计算上下文决定执行计算的位置:在边缘节点上本地执行或分布在 Spark 群集的各节点中。也可在公共 Github 存储库中查看所有 R 代码。祝你愉快!

免责声明

©2017 Microsoft Corporation。保留所有权利。此信息按“原样”提供且可能更改,恕不另行通知。Microsoft 不就此处提供的信息做任何明示和默示的担保。第三方数据用于生成解决方案。你必须尊重他人的权利,包括在创建类似数据集之前获得相关许可并遵循此等许可。

相关解决方案体系结构

使用 SQL Server 预测贷款冲销

该解决方案展示了如何使用带 R Services 的 SQL Server 2016 构建和部署机器学习模型,以预测是否需要在未来三个月内冲销银行贷款

使用 SQL Server 预测信贷信用风险

借助带 R Services 的 SQL Server 2016,借贷机构可利用预测分析,避免贷款给极有可能拖欠还款的借款人,从而提高其贷款组合的盈利率。