使用 Azure HDInsight Spark 叢集進行貸款壞帳預測

壞帳貸款是指由債權人 (通常是借貸機構) 宣告債務金額可能無法收回的貸款;通常是在貸款人嚴重拖欠貸款清償的情況下。由於高壞帳率會對借貸機構的年度財務產生負面影響,因此借貸機構通常會密切監控貸款壞帳風險以避免沖銷貸款。使用 Azure HDInsight R 伺服器時,借貸機構可以利用機器學習的預測性分析來預測沖銷貸款的可能性,並針對儲存在 HDFS 和 Hive 資料表中的分析結果來執行報表。

說明

注意:若您已部署了此解決方案,按一下這裡即可檢視部署。

預估佈建時間:25 分鐘

此解決方案會建立含有 Microsoft R 伺服器的 HDInisght Spark 叢集。這個叢集包含 2 個前端節點、2 個背景工作節點和 1 個邊緣節點;總共 32 核心。這個 HDInsight Spark 叢集的成本約為 $8.29/小時。費用是從建立叢集時開始計算,並於刪除叢集時停止計費。每分鐘按比例計費,因此當您不再需要叢集時即可隨時刪除。使用完畢時,請使用 [部署] 頁面,刪除整個解決方案。

概觀

如果借貸機構手邊有貸款壞帳預測資料的話,可獲益良多。沖銷貸款是銀行處理嚴重滯納貸款的最後手段,如果信貸員手邊有預測資料,就能提供個人化的獎勵計畫 (例如降低利率或延長償還期),以協助客戶繼續償還貸款並避免貸款遭到沖銷。為了取得這類預測資料,信用合作社或銀行通常會根據客戶過去的償還記錄來手動製作資料,並執行簡單的統計迴歸分析。這種方法很容易發生資料編譯錯誤,而且在統計方面並不可靠。

此解決方案範本示範一個端對端解決方案,可對貸款資料執行預測性分析並根據壞帳機率產生評分。PowerBI 報表也會逐步分析信用貸款並顯示其趨勢,以及預測壞帳機率。

企業方面

這個貸款壞帳預測會使用模擬的貸款記錄資料,預測貸款在近期 (未來三個月) 成為壞帳的機率。分數愈高,未來沖銷貸款的機率就愈高。

貸款經理也可以透過這份分析資料,了解不同分公司位置的壞帳貸款趨勢和分析。掌握具有高沖銷風險的貸款特性時,有助貸款經理針對特定地區制定貸款供應項目業務計畫。

HDInsight Spark 叢集上的 Microsoft R 伺服器為巨量資料提供分散式及可調整規模的機器學習服務功能,同時結合了 R 伺服器與 Apache Spark 的特長。這個解決方案會示範如何開發機器學習模型以預測貸款壞帳 (包括資料處理、特徵工程、定型和評估模型)、如何部署模型與 Web 服務 (於邊緣節點) 以及使用 Azure HDInsight Spark 叢集上的 Microsoft R 伺服器遠端取用 Web 服務。系統會將最終的預測儲存到 Hive 資料表中,並可在 Power BI 中進行視覺化。

Power BI 會同時呈現出貸款的償還和沖銷預測情況的視覺化摘要 (以模擬資料顯示於此)。您可以按一下右側的 [馬上試用] 按鈕,試用此儀表板。

資料科學家方面

這份解決方案範本會逐步指引如何使用一組模擬的貸款記錄資料來開發預測分析,以預測貸款壞帳風險的端對端程序。這些資料包括貸款人的人口統計資訊、貸款金額、合約的貸款期限和貸款清償記錄。這份解決方案範本也包括一組 R 指令碼,其可執行資料處理、特徵工程和若干不同的演算法,以定型資料,並最終選取最佳的效能模型來評分資料,進而產生每筆貸款的可能性分數。解決方案也包含部署模型和 Web 服務 (於邊緣端點) 的指令碼,並會使用 Azure HDInsight Spark 叢集上的 Microsoft R 伺服器遠端取用 Web 服務。

如果資料科學家要測試這個解決方案,可以使用瀏覽器式 R Studio Server Open Source Edition (執行於 Azure HDInsight Spark 叢集的邊緣節點上) 提供的 R 程式碼。使用者可以透過計算內容來決定執行計算的位置:於邊緣節點本機或分散於 Spark 叢集中的各節點。您可以在公用的 Github 存放庫中找到所有 R 程式碼。祝您使用愉快!

免責聲明

© 2017 Microsoft Corporation.著作權所有,並保留一切權利。這項資訊依照「現況」提供,且可能變更而不另行通知。Microsoft 對於此處提供的資訊不提供任何明示或默示的擔保。產生此解決方案的過程中使用了協力廠商的資料。您必須尊重他人的權利,包括取得及遵從相關授權以建立相似的資料集。

相關解決方案架構

使用 SQL Server 進行貸款壞帳預測

此解決方案示範如何搭配使用 SQL Server 2016 和 R Services 來建置及部署機器學習服務模型,以預測銀行貸款在未來 3 個月內是否需要進行沖銷

使用 SQL Server 降低貸款信用風險

貸款機構可以搭配使用 SQL Server 2016 和 R Services,利用預測性分析來避免貸款給不太可能償還的借方,藉此提高其貸款投資組合的獲利率。