모델 대출 신용 위험 및 기본 확률

Azure Machine Learning
Azure Synapse Analytics
Azure App Service
Azure Data Lake Storage
Power BI

이 문서에서는 Azure Machine Learning을 사용하여 대출 신청자의 연체 및 기본 확률을 예측하는 아키텍처를 설명합니다. 모델의 예측은 신청자의 재정 행동을 기반으로 합니다. 이 모델은 거대한 데이터 요소 집합을 사용하여 지원자를 분류하고 각 신청자에 대한 자격 점수를 제공합니다.

Apache®, Spark 및 불꽃 로고는 미국 및/또는 기타 국가에서 Apache Software Foundation의 등록 상표 또는 상표입니다. Apache Software Foundation의 보증은 이러한 표시를 사용하는 것을 암시하지 않습니다.

아키텍처

Diagram that shows an architecture for predicting credit risk.

이 아키텍처의 Visio 파일을 다운로드합니다.

데이터 흐름

다음 데이터 흐름은 이전 다이어그램에 해당합니다.

  1. 스토리지: 데이터가 구조화된 경우 Azure Synapse Analytics 풀과 같은 데이터베이스에 저장됩니다. 이전 SQL 데이터베이스를 시스템에 통합할 수 있습니다. 반구조화된 데이터와 구조화되지 않은 데이터는 데이터 레이크에 로드할 수 있습니다.

  2. 수집 및 사전 처리: Azure Synapse Analytics 처리 파이프라인 및 ETL 처리는 기본 제공 커넥터를 통해 Azure 또는 타사 원본에 저장된 데이터에 연결할 수 있습니다. Azure Synapse Analytics는 SQL, Spark, Azure Data Explorer 및 Power BI를 사용하는 여러 분석 방법론을 지원합니다. 데이터 파이프라인에 기존 Azure Data Factory 오케스트레이션을 사용할 수도 있습니다.

  3. 처리: Azure Machine Learning은 기계 학습 모델을 개발하고 관리하는 데 사용됩니다.

    1. 초기 처리: 이 단계에서는 기계 학습 모델을 학습시킬 큐레이팅된 데이터 세트를 만들기 위해 원시 데이터가 처리됩니다. 일반적인 작업에는 데이터 형식 서식 지정, 누락된 값의 대체, 기능 엔지니어링, 기능 선택 및 차원 감소가 포함됩니다.

    2. 교육: 학습 단계 동안 Azure Machine Learning은 처리된 데이터 세트를 사용하여 신용 위험 모델을 학습시키고 최상의 모델을 선택합니다.

    • 모델 학습: 클래식 기계 학습 및 딥 러닝 모델을 비롯한 다양한 기계 학습 모델을 사용할 수 있습니다. 하이퍼 매개 변수 튜닝을 사용하여 모델 성능을 최적화할 수 있습니다.

    • 모델 평가: Azure Machine Learning은 학습된 각 모델의 성능을 평가하므로 배포에 가장 적합한 모델을 선택할 수 있습니다.

    • 모델 등록: Azure Machine Learning에서 가장 성능이 좋은 모델을 등록합니다. 이 단계를 수행하면 모델을 배포에 사용할 수 있습니다.

    c. 책임 있는 AI: 책임 있는 AI는 안전하고 신뢰할 수 있고 윤리적인 방식으로 AI 시스템을 개발, 평가 및 배포하는 접근 방식입니다. 이 모델은 대출 요청에 대한 승인 또는 거부 결정을 유추하므로 책임 있는 AI의 원칙을 구현해야 합니다.

    • 공정성 메트릭은 불공정한 동작의 영향을 평가하고 완화 전략을 사용하도록 설정합니다. 중요한 기능 및 특성은 데이터 세트 및 데이터의 코호트(하위 집합)에서 식별됩니다. 자세한 내용은 모델 성능 및 공정성을 참조하세요.

    • 해석성은 기계 학습 모델의 동작을 얼마나 잘 이해할 수 있는지에 대한 측정값입니다. 책임 있는 AI의 이 구성 요소는 모델의 예측에 대해 사람이 이해할 수 있는 설명을 생성합니다. 자세한 내용은 모델 해석성을 참조 하세요.

  4. 실시간 기계 학습 배포: 승인을 위해 요청을 즉시 검토해야 하는 경우 실시간 모델 유추를 사용해야 합니다.

    1. 관리형 기계 학습 온라인 엔드포인트. 실시간 채점의 경우 적절한 컴퓨팅 대상을 선택해야 합니다.
    2. 대출에 대한 온라인 요청은 신청자 양식 또는 대출 신청의 입력에 따라 실시간 점수를 사용합니다.
    3. 모델 채점에 사용되는 결정 및 입력은 영구 스토리지에 저장되며 향후 참조를 위해 검색할 수 있습니다.
  5. Batch 기계 학습 배포: 오프라인 대출 처리의 경우 모델은 정기적으로 트리거되도록 예약됩니다.

    1. 관리되는 일괄 처리 엔드포인트입니다. 일괄 처리 유추가 예약되고 결과 데이터 세트가 만들어집니다. 결정은 신청자의 신용도에 따라 결정됩니다.
    2. 일괄 처리의 결과 점수 집합은 데이터베이스 또는 Azure Synapse Analytics 데이터 웨어하우스에 유지됩니다.
  6. 지원자 활동에 대한 데이터에 대한 인터페이스: 신청자의 세부 정보 입력, 내부 신용 프로필 및 모델의 결정은 모두 준비된 후 적절한 데이터 서비스에 저장됩니다. 이러한 세부 정보는 향후 채점을 위해 의사 결정 엔진에서 사용되므로 문서화됩니다.

    • 스토리지: 신용 처리에 대한 모든 세부 정보는 영구 스토리지에 유지됩니다.
    • 사용자 인터페이스: 승인 또는 거부 결정은 신청자에게 제출됩니다.
  7. 보고: 처리 및 승인 또는 거부 결과를 처리하는 애플리케이션 수에 대한 실시간 인사이트는 관리자와 경영진에게 지속적으로 제공됩니다. 보고의 예로는 승인된 금액에 대한 거의 실시간 보고서, 생성된 대출 포트폴리오 및 모델 성과가 포함됩니다.

구성 요소

  • Azure Blob Storage 는 구조화되지 않은 데이터에 대해 확장 가능한 개체 스토리지를 제공합니다. 이진 파일, 활동 로그 및 특정 형식을 준수하지 않는 파일과 같은 파일을 저장하는 데 최적화되어 있습니다.
  • Azure Data Lake Storage 는 Azure에서 비용 효율적인 데이터 레이크를 만들기 위한 스토리지 기반입니다. 계층적 폴더 구조와 향상된 성능, 관리 및 보안을 갖춘 Blob Storage를 제공합니다. 수백 기가비트의 처리량을 유지하면서 여러 페타바이트의 정보를 제공합니다.
  • Azure Synapse Analytics 는 최상의 SQL 및 Spark 기술과 Azure Synapse Data Explorer 및 파이프라인에 대한 통합 사용자 환경을 결합한 분석 서비스입니다. Power BI, Azure Cosmos DB 및 Azure Machine Learning과 통합됩니다. 이 서비스는 전용 및 서버리스 리소스 모델과 해당 모델 간에 전환할 수 있는 기능을 모두 지원합니다.
  • Azure SQL Database 는 클라우드용으로 빌드된 항상 최신의 완전 관리형 관계형 데이터베이스입니다.
  • Azure Machine Learning 은 기계 학습 프로젝트 수명 주기를 관리하기 위한 클라우드 서비스입니다. 데이터 탐색, 모델 빌드 및 관리 및 배포를 위한 통합 환경을 제공하고 기계 학습에 대한 코드 우선 및 하위 코드/코드 없음 접근 방식을 지원합니다.
  • Power BI 는 Azure 리소스와 쉽게 통합할 수 있는 시각화 도구입니다.
  • Azure 앱 Service를 사용하면 인프라를 관리하지 않고도 웹앱, 모바일 백 엔드 및 RESTful API를 빌드하고 호스트할 수 있습니다. 지원되는 언어로는 .NET, .NET Core, Java, Ruby, Node.js, PHP 및 Python이 있습니다.

대안

Azure Databricks를 사용하여 기계 학습 모델 및 분석 워크로드를 개발, 배포 및 관리할 수 있습니다. 이 서비스는 모델 개발을 위한 통합 환경을 제공합니다.

시나리오 정보

금융 업계의 조직은 신용을 요청하는 개인 또는 기업의 신용 위험을 예측해야 합니다. 이 모델은 대출 신청자의 연체 및 기본 확률을 평가합니다.

신용 위험 예측에는 인구 행동을 심층 분석하고 고객 기반을 회계 책임에 따라 세그먼트로 분류하는 작업이 포함됩니다. 다른 변수에는 결과에 큰 영향을 미치는 시장 요인 및 경제 상황이 포함됩니다.

도전. 입력 데이터에는 수천만 개의 고객 프로필과 고객 신용 행동 및 내부 고객 활동 시스템과 같은 서로 다른 시스템의 수십억 개의 레코드를 기반으로 하는 지출 습관에 대한 데이터가 포함됩니다. 경제 상황 및 국가/지역의 시장 분석에 대한 타사 데이터는 수백 GB의 파일을 로드하고 기본 부담해야 하는 월별 또는 분기별 스냅샷 수 있습니다. 고객 데이터의 신청자 또는 반구조적 행에 대한 신용 조사기관 정보와 이러한 데이터 세트와 품질 검사 간의 교차 조인을 통해 데이터의 무결성을 검증해야 합니다.

데이터는 일반적으로 시장 분석과 함께 신용 조사국의 고객 정보의 넓은 열 테이블로 구성됩니다. 고객 활동은 구조화되지 않을 수 있는 동적 레이아웃의 레코드로 구성됩니다. 데이터는 고객 서비스 노트 및 지원자 상호 작용 양식의 자유 형식 텍스트로도 제공됩니다.

이러한 대량의 데이터를 처리하고 결과를 최신 상태로 유지하려면 간소화된 처리가 필요합니다. 대기 시간이 짧은 스토리지 및 검색 프로세스가 필요합니다. 데이터 인프라는 서로 다른 데이터 원본을 지원하고 데이터 경계를 관리하고 보호하는 기능을 제공하도록 확장할 수 있어야 합니다. 기계 학습 플랫폼은 많은 모집단 세그먼트에서 학습, 테스트 및 유효성을 검사하는 많은 모델의 복잡한 분석을 지원해야 합니다.

데이터 민감도 및 개인 정보 이 모델의 데이터 처리에는 개인 데이터 및 인구 통계학적 세부 정보가 포함됩니다. 모집단의 프로파일링을 피해야 합니다. 모든 개인 데이터에 대한 직접 표시를 제한해야 합니다. 개인 데이터의 예로는 계정 번호, 신용 카드 세부 정보, 사회 보장 번호, 이름, 주소 및 우편 번호가 있습니다.

신용 카드 및 은행 계좌 번호는 항상 난독화되어야 합니다. 특정 데이터 요소는 마스킹되고 항상 암호화되어야 하며 기본 정보에 대한 액세스를 제공하지 않지만 분석에 사용할 수 있습니다.

미사용, 전송 중 및 보안 Enclave를 통해 처리하는 동안 데이터를 암호화해야 합니다. 데이터 항목에 대한 액세스는 모니터링 솔루션에 기록됩니다. 모델 배포 및 프로세스를 트리거하는 승인을 사용하여 적절한 CI/CD 파이프라인을 사용하여 프로덕션 시스템을 설정해야 합니다. 로그 및 워크플로에 대한 감사는 규정 준수 요구 사항에 대한 데이터와의 상호 작용을 제공해야 합니다.

처리. 이 모델에는 분석, 컨텍스트화 및 모델 학습 및 배포를 위한 높은 계산 능력이 필요합니다. 모델 점수 매기기는 임의 샘플에 대해 유효성을 검사하여 신용 결정에 인종, 성별, 인종 또는 지리적 위치 편향이 포함되지 않도록 합니다. 향후 참조를 위해 의사 결정 모델을 문서화하고 보관해야 합니다. 의사 결정 결과에 관련된 모든 요소가 저장됩니다.

데이터 처리에는 높은 CPU 사용량이 필요합니다. 여기에는 DB 및 JSON 형식의 구조적 데이터의 SQL 처리, 데이터 프레임의 Spark 처리 또는 다양한 문서 형식의 테라바이트 정보에 대한 빅 데이터 분석이 포함됩니다. 데이터 ELT/ETL 작업은 가장 최근 데이터의 값에 따라 정기적으로 또는 실시간으로 예약되거나 트리거됩니다.

규정 준수 및 규정 프레임워크. 제출된 애플리케이션, 모델 점수 매기기에서 사용되는 기능 및 모델의 결과 집합을 포함하여 대출 처리의 모든 세부 정보를 문서화해야 합니다. 향후 참조 및 감사 및 규정 준수 요청을 위해 모델 학습 정보, 학습에 사용되는 데이터 및 학습 결과를 등록해야 합니다.

일괄 처리 및 실시간 점수 매기기 특정 작업은 사전 승인된 잔액 이체와 같은 일괄 처리 작업으로 처리할 수 있습니다. 온라인 신용 회선 증가와 같은 일부 요청에는 실시간 승인이 필요합니다.

온라인 대출 요청의 상태 대한 실시간 액세스는 신청자가 사용할 수 있어야 합니다. 대출 발급 금융 기관은 신용 모델의 성과를 지속적으로 모니터링하고 대출 승인 상태, 승인된 대출 수, 발행된 달러 금액 및 신규 대출의 품질과 같은 메트릭에 대한 인사이트가 필요합니다.

반응형 AI

책임 있는 AI 대시보드책임 있는 AI를 구현하는 데 도움이 되는 여러 도구에 대한 단일 인터페이스를 제공합니다. 책임 있는 AI 표준은 다음 6가지 원칙을 기반으로 합니다.

Diagram that shows the six principles of Responsible AI.

Azure Machine Learning의 공정성 및 포용성. 책임 있는 AI 대시보드의 이 구성 요소는 할당의 해와 서비스 품질에 해를 끼치지 않도록 하여 불공정한 행동을 평가하는 데 도움이 됩니다. 이를 사용하여 성별, 연령, 민족성 및 기타 특성 측면에서 정의된 민감한 그룹 간의 공정성을 평가할 수 있습니다. 평가 중에 공정성은 차이 메트릭을 통해 정량화됩니다. 패리티 제약 조건을 사용하는 Fairlearn 오픈 소스 패키지에서 완화 알고리즘을 구현해야 합니다.

Azure Machine Learning의 안정성 및 안전성 책임 있는 AI의 오류 분석 구성 요소는 다음을 수행할 수 있습니다.

  • 모델에 대해 오류가 분산되는 방식을 자세히 이해합니다.
  • 전체 벤치마크보다 오류율이 높은 데이터 코호트를 식별합니다.

Azure Machine Learning의 투명성. 투명성의 중요한 부분은 기능이 기계 학습 모델에 미치는 영향을 이해하는 것입니다.

  • 모델 해석성은 모델의 동작에 영향을 주는 요인을 이해하는 데 도움이 됩니다. 모델의 예측에 대한 사람이 이해할 수 있는 설명을 생성합니다. 이러한 이해는 모델을 신뢰하고 디버그하고 개선하는 데 도움이 됩니다. InterpretML 은 유리 상자 모델의 구조 또는 블랙 박스 심층 신경망 모델의 기능 간의 관계를 이해하는 데 도움이 될 수 있습니다.
  • 가상 가상 가상은 기능 변경 및 혼란과 대응하는 방식 측면에서 기계 학습 모델을 이해하고 디버그하는 데 도움이 될 수 있습니다.

Azure Machine Learning의 개인 정보 및 보안 기계 학습 관리자는 모델 배포를 개발하고 관리하기 위한 보안 구성을 만들어야 합니다. 보안 및 거버넌스 기능은 조직의 보안 정책을 준수하는 데 도움이 될 수 있습니다. 다른 도구는 모델을 평가하고 보호하는 데 도움이 될 수 있습니다.

Azure Machine Learning의 책임. MLOps(기계 학습 작업)는 AI 워크플로의 효율성을 높이는 DevOps 원칙 및 사례를 기반으로 합니다. Azure Machine Learning은 MLOps 기능을 구현하는 데 도움이 될 수 있습니다.

  • 모델 등록, 패키지 및 배포
  • 모델 변경에 대한 알림 및 경고 가져오기
  • 엔드 투 엔드 수명 주기에 대한 거버넌스 데이터 캡처
  • 운영 문제에 대한 애플리케이션 모니터링

이 다이어그램은 Azure Machine Learning의 MLOps 기능을 보여 줍니다.

Diagram that describes the MLOps capabilities of Azure Machine Learning.

잠재적인 사용 사례

다음 시나리오에 이 솔루션을 적용할 수 있습니다.

  • 재무: 대상 마케팅 캠페인을 위해 고객에 대한 재무 분석 또는 고객 교차 판매 분석을 가져옵니다.
  • 의료: 환자 정보를 입력으로 사용하여 치료 제공을 제안합니다.
  • 호스피탈리티: 고객 프로필을 만들어 호텔, 항공편, 크루즈 패키지 및 멤버십에 대한 제품을 제안합니다.

고려 사항

이러한 고려 사항은 워크로드의 품질을 향상시키는 데 사용할 수 있는 일련의 기본 원칙인 Azure Well-Architected Framework의 핵심 요소를 구현합니다. 자세한 내용은 Microsoft Azure Well-Architected Framework를 참조하세요.

보안

우수한 보안은 중요한 데이터 및 시스템에 대한 고의적인 공격과 악용을 방어합니다. 자세한 내용은 보안 요소의 개요를 참조하세요.

Azure 솔루션은 심층 방어 및 제로 트러스트 접근 방식을 제공합니다.

이 아키텍처에서 다음과 같은 보안 기능을 구현하는 것이 좋습니다.

비용 최적화

비용 최적화는 불필요한 비용을 줄이고 운영 효율성을 높이는 것입니다. 자세한 내용은 비용 최적화 핵심 요소 개요를 참조하세요.

이 솔루션을 구현하는 비용을 예측하려면 Azure 가격 계산기를 사용합니다.

또한 다음 리소스를 고려합니다.

운영 우수성

운영 우수성은 애플리케이션을 배포하고 프로덕션에서 계속 실행하는 운영 프로세스를 다룹니다. 자세한 내용은 운영 우수성 핵심 요소 개요를 참조하세요.

기계 학습 솔루션은 더 쉬운 관리 및 기본 강화를 위해 확장 가능하고 표준화되어야 합니다. 솔루션이 재학습 주기 및 자동화된 모델 재배포를 통해 지속적인 유추를 지원하는지 확인합니다.

자세한 내용은 Azure MLOps(v2) 솔루션 가속기를 참조하세요.

성능 효율성

성능 효율성은 사용자가 배치된 요구 사항을 효율적인 방식으로 충족하기 위해 워크로드의 크기를 조정할 수 있는 기능입니다. 자세한 내용은 성능 효율성 핵심 요소 개요를 참조하세요.

참가자

Microsoft에서 이 문서를 유지 관리합니다. 원래 다음 기여자가 작성했습니다.

보안 주체 작성자:

기타 기여자:

비공개 LinkedIn 프로필을 보려면 LinkedIn에 로그인하세요.

다음 단계