탐색 건너뛰기

Azure HDInsight Spark 클러스터를 사용한 대출 상각 예측

상각된 대출은 대개 대출 재상환이 채무자에 의해 심각하게 연체될 경우 채권자(일반적으로 대출 기관)가 부채 금액이 회수되지 않을 가능성이 있는 것으로 선언하는 대출입니다. 높은 상각이 대출 기관의 연말 재정 상황에 부정적인 영향을 미칠 경우 대출 기관은 종종 대출 상각 위험을 매우 면밀하게 모니터링하여 대출이 상각되지 않도록 합니다. Azure HDInsight R Server를 사용하면 대출 기관이 기계 학습 예측 분석을 이용하여 대출 상각 가능성을 예측하고 HDFS 및 Hive 테이블에 저장된 분석 결과에 대한 보고서를 실행할 수 있습니다.

설명

참고: 이 솔루션을 이미 배포한 경우 여기를 클릭하여 배포를 확인하세요.

예상 프로비전 시간: 25분

이 솔루션은 Microsoft R Server를 사용하여 HDInsight Spark 클러스터를 만듭니다. 이 클러스터에는 총 32개 코드와 함께 헤드 노드 2개, 작업자 노드 2개, 에지 노드 1개가 포함됩니다. 이 HDInsight Spark 클러스터에 대한 개략적인 비용은 $8.29/시간입니다. 클러스터를 만들면 청구가 시작되고 클러스터를 삭제하면 청구가 중지됩니다. 청구는 분 단위에 비례 계산되므로 클러스터를 더 이상 사용하지 않을 경우 항상 클러스터를 삭제해야 합니다. 작업을 완료한 후 배포 페이지를 사용하여 전체 솔루션을 삭제합니다.

개요

대출 지침에 대출 상각 예측 데이터를 갖추면 다음과 같은 다양한 이점이 있습니다. 대출 상각은 은행이 심각하게 연체된 대출에 대해 수행하게 되는 마지막 수단입니다. 예측 데이터를 사용하면 대출 담당자는 고객이 계속 대출을 상환할 수 있도록 더 낮은 이자율이나 더 긴 상환 기간 같은 개인 설정된 우대 조치를 제공하여 대출 상각을 방지할 수 있습니다. 이런 종류의 예측 데이터를 얻기 위해 신용 조합 또는 은행은 고객의 과거 지급 기록을 기반으로 데이터를 수동으로 생성하고 간단한 통계 회귀 분석을 수행했습니다. 이 방법은 데이터 컴파일 오류를 초래할 가능성이 높고 통계적으로 적절하지 않습니다.

이 솔루션 템플릿은 대출 데이터에 대한 예측 분석을 실행하고 상각 가능성에 대한 점수를 생성하기 위한 종단 간 솔루션을 보여 줍니다. PowerBI 보고서에서는 신용 대출 분석 및 추세와 상각 가능성 예측을 검토합니다.

비즈니스 관점

이 대출 상각 예측에서는 시뮬레이트된 대출 기록 데이터를 사용하여 가까운 장래(다음 3개월)의 대출 상각 가능성을 예측합니다. 점수가 높을수록 장래에 대출이 상각될 가능성이 높아집니다.

분석 데이터를 통해 대출 관리자에게는 지사별 상각 대출에 대한 추세와 분석이 제공됩니다. 높은 상각 위험 대출의 특징을 통해 대출 관리자는 특정 지역의 대출 제공에 대한 비즈니스 계획을 세울 수 있습니다.

HDInsight Spark 클러스터의 Microsoft R Server는 R Server와 Apache Spark의 결합된 기능을 이용하여 빅 데이터에 대해 분산된 확장 가능한 기계 학습 기능을 제공합니다. 이 솔루션은 대출 상각 예측을 위해 기계 학습 모델을 개발하고(데이터 처리, 기능 엔지니어링, 학습 및 평가 모델 포함), 모델을 웹 서비스로 배포하고(에지 노드에), Azure HDInsight Spark 클러스터에서 Microsoft R Server를 통해 웹 서비스를 원격으로 사용하는 방법을 보여 줍니다. 최종 예측은 Power BI에서 시각화될 수 있는 Hive 테이블에 저장됩니다.

Power BI는 대출 상환 및 상각 예측에 대한 시각적 요약도 제공합니다(여기서는 시뮬레이트된 데이터를 사용하여 표시됨). 오른쪽에 있는 “지금 평가판 사용” 단추를 클릭하여 이 대시보드를 사용해 볼 수 있습니다.

데이터 과학자 관점

이 솔루션 템플릿에서는 시뮬레이트된 대출 기록 데이터 집합을 사용하여 대출 상각 위험을 예측하는 예측 분석을 개발하는 방법의 종단 간 프로세스를 연습합니다. 데이터에는 채권자 인구 통계 데이터, 대출 금액, 대출 계약 기간 및 대출 상환 기록 같은 정보가 포함됩니다. 솔루션 템플릿에는 데이터 처리, 기능 엔지니어링 및 여러 가지 알고리즘을 수행하고 마지막으로 가장 성능이 우수한 모델을 선택하여 각 대출의 가능성 점수를 생성하기 위해 데이터에 점수를 매기는 R 스크립트 집합도 포함됩니다. 이 솔루션에는 모델을 웹 서비스로 배포하고(에지 노드에) Azure HDInsight Spark 클러스터에서 Microsoft R Server를 통해 웹 서비스를 원격으로 사용하는 스크립트도 포함됩니다.

이 솔루션을 테스트하는 데이터 과학자는 Azure HDInsight Spark 클러스터의 에지 노드에서 실행되는 RStudio Server의 브라우저 기반 오픈 소스 버전에서 제공된 R 코드를 사용할 수 있습니다. 컴퓨팅 컨텍스트를 설정하면 사용자가 에지 노드에서 로컬로 또는 Spark 클러스터의 여러 노드에서 분산하여 계산을 수행할지 결정할 수 있습니다. 모든 R 코드는 공개 Github 리포지토리에서도 찾을 수 있습니다. 즐겁게 사용하시기 바랍니다.

고지 사항

©2017 Microsoft Corporation. All rights reserved. 이 정보는 “있는 그대로” 제공되며 예고 없이 변경될 수 있습니다. Microsoft는 여기에 제공된 정보에 대해 어떠한 명시적 또는 묵시적 보증도 하지 않습니다. 타사 데이터는 솔루션을 생성하는 데 사용되었습니다. 유사한 데이터 집합을 만들기 위해 관련 라이선스를 확보하고 준수하는 것을 비롯한 다른 사람의 권리를 존중하는 것은 귀하의 책임입니다.

관련 솔루션 아키텍처

SQL Server를 사용한 대출 상각 예측

이 솔루션은 SQL Server 2016 with R Services를 통해 기계 학습 모델을 빌드 및 배포하여 은행 대출이 다음 3개월 내에 상각되어야 하는지 예측하는 방법을 보여 줍니다.

SQL Server를 사용한 대출 신용 위험

SQL Server 2016 with R Services를 사용하는 대출 기관은 예측 분석을 사용하여 채무 불이행 가능성이 있는 대출자에게 제공하는 대출 수를 줄임으로써 대출 포트폴리오의 수익성을 높일 수 있습니다.