Vorhersage von Kreditabschreibungen mit Azure HDInsight Spark-Clustern

Ein abgeschriebener Kredit ist ein Kredit, bei dem ein Kreditgeber (üblicherweise ein Kreditinstitut) erklärt, dass die Schuldsumme wahrscheinlich nicht eingetrieben werden kann. Dies ist in der Regel der Fall, wenn der Kreditnehmer mit der Rückzahlung erheblich in Verzug ist. Angesichts der Tatsache, dass umfangreiche Abschreibungen sich negativ auf die Bilanz eines Kreditinstituts auswirken, überwachen diese Institute das Abschreibungsrisiko häufig sehr genau, um zu verhindern, dass Kredite abgeschrieben werden müssen. Mithilfe von Azure HDInsight R Server können Kreditinstitute Machine Learning-basierte Predictive Analytics-Verfahren einsetzen, um die Wahrscheinlichkeit zu prognostizieren, dass Kredite abgeschrieben werden müssen, und um Berichte für die Analyseergebnisse erstellen, die in HDFS- und Hive-Tabellen gespeichert werden.

Beschreibung

Hinweis: Wenn Sie diese Lösung bereits bereitgestellt haben, klicken Sie hier, um sich Ihre Bereitstellung anzeigen zu lassen.

Geschätzte Bereitstellungszeit: 25 Minuten

Diese Lösung erstellt einen HDInsight Spark-Cluster mit Microsoft R Server. Dieser Cluster umfasst zwei Hauptknoten, zwei Workerknoten und einen Edgeknoten mit insgesamt 32 Kernen. Die Kosten für diesen HDInsight Spark-Cluster betragen ca. $8.29/Stunde. Die Abrechnung beginnt, sobald ein Cluster erstellt wird, und endet, wenn der Cluster gelöscht wird. Die Abrechnung erfolgt anteilig pro Minute. Daher sollten Sie Cluster immer löschen, wenn sie nicht mehr verwendet werden. Auf der Seite „Bereitstellungen“ können Sie die gesamte Lösung löschen, sobald Sie fertig sind.

Übersicht

Kreditinstitute können auf vielfältige Weise von Vorhersagedaten zu Kreditabschreibungen profitieren. Die Abschreibung ist für die Bank der letzte Ausweg bei erheblich in Verzug stehenden Krediten. Mithilfe der Vorhersagedaten kann der Kreditbetreuer maßgeschneiderte Anreize wie z.B. niedrigere Zinsen oder einen längeren Rückzahlungszeitraum anbieten, um dem Kunden die Zahlung der Raten zu ermöglichen und auf diese Weise die Abschreibung des Kredits zu verhindern. Kreditgenossenschaften und Banken stellen solche Daten häufig manuell auf Grundlage des bisherigen Zahlungsverlaufs des Kunden zusammen und führen dann eine einfache statistische Regressionsanalyse durch. Dieses Verfahren ist jedoch hochgradig anfällig für Fehler bei der Datenzusammenstellung und auch statistisch nicht fundiert.

Die hier beschriebene Lösungsvorlage veranschaulicht eine konsistente Lösung zur Durchführung von Predictive Analytics für die Kreditdaten und zur Erzeugung einer Bewertung der Abschreibungswahrscheinlichkeit. Ein Power BI-Bericht zeigt ferner exemplarisch Analyse und Trends bei den Darlehen und die prognostizierte Abschreibungswahrscheinlichkeit.

Geschäftliche Perspektive

Diese Kreditabschreibungsvorhersage verwendet simulierte Kreditverlaufsdaten, um die Wahrscheinlichkeit einer Kreditabschreibung in der unmittelbaren Zukunft (d.h. in den kommenden drei Monaten) vorherzusagen. Je höher die Bewertung ist, desto höher ist die Wahrscheinlichkeit einer späteren Kreditabschreibung.

Gemeinsam mit den Analysedaten erhält der Kreditbetreuer auch die Trends und Analyse zu abgeschriebenen Krediten nach Filialstandort. Anhand der Eigenschaften von Krediten mit hohem Abschreibungsrisiko können Kreditbetreuer Geschäftspläne für Darlehensangebote in der betreffenden Region erstellen.

Microsoft R Server in HDInsight Spark-Clustern bietet verteilte und skalierbare Machine Learning-Funktionen für Big Data und nutzt die kombinierte Leistungsstärke von R Server und Apache Spark. Diese Lösung veranschaulicht die Entwicklung von Machine Learning-Modellen für die Vorhersage von Kreditabschreibungen (einschließlich Modellen für Datenverarbeitung, Funktionsentwicklung, Training und Auswertung), die Bereitstellung der Modelle als Webdienst (auf dem Edgeknoten) und die Nutzung des Webdiensts per Remotezugriff mit Microsoft R Server in Azure HDInsight Spark-Clustern. Die finalen Vorhersagen werden in einer Hive-Tabelle gespeichert, die in Power BI visualisiert werden kann.

Power BI zeigt außerdem eine visuelle Übersicht über die Kreditraten und Abschreibungsvorhersagen (hier anhand von Simulationsdaten gezeigt). Klicken Sie auf die Schaltfläche „Jetzt ausprobieren“ auf der rechten Seite, um dieses Dashboard auszuprobieren.

Data Scientist-Perspektive

Diese Lösungsvorlage führt Sie Schritt für Schritt durch den gesamten Prozess der Entwicklung einer Vorhersageanalyse mithilfe von simulierten Kreditverlaufsdaten, um das Risiko einer Abschreibung vorherzusagen. Die Daten enthalten Informationen wie z.B. demografische Daten zum Kreditnehmer, Höhe des Kredits, Vertragsdauer und Verlauf der Rückzahlungen. Die Lösungsvorlage enthält auch eine Reihe von R-Skripts, die die Datenverarbeitung, die Funktionsentwicklung sowie verschiedene Algorithmen zum Trainieren der Daten ausführen. Zum Schluss wählen die Skripts das leistungsfähigste Modell aus, um die Daten auszuwerten und für jeden Kredit eine Bewertung der Wahrscheinlichkeit zu liefern. Die Lösung umfasst auch Skripts zur Bereitstellung des Modells als Webdienst (auf dem Edgeknoten) und zur Remotenutzung des Webdiensts mit Microsoft R Server auf Azure HDInsight Spark-Clustern.

Data Scientists, die diese Lösung testen, können mit dem bereitgestellten R-Code aus der browserbasierten Open Source-Edition von RStudio Server arbeiten, die auf dem Edgeknoten des Azure HDInsight Spark-Clusters ausgeführt wird. Durch Einrichten des Computekontexts kann der Benutzer entscheiden, wo die Berechnung ausgeführt wird: lokal auf dem Edgeknoten oder verteilt auf den Knoten im Spark-Cluster. Der gesamte R-Code findet sich auch im öffentlichen GitHub-Repository. Viel Spaß!

Haftungsausschluss

©2017 Microsoft Corporation. Alle Rechte vorbehalten. Alle Informationen werden im vorliegenden Zustand bereitgestellt und können sich ohne Vorankündigung ändern. Microsoft leistet weder ausdrücklich noch stillschweigend Gewähr hinsichtlich der hier zur Verfügung gestellten Informationen. Zur Erstellung der Lösung wurden Drittanbieterdaten verwendet. Sie sind dafür verantwortlich, die Rechte Dritter zu berücksichtigen. Hierzu zählen u.a. das Beschaffen relevanter Lizenzen, die zur Erstellung ähnlicher Datensätze benötigt werden, und das Erfüllen der jeweiligen Lizenzbedingungen.

Zugehörige Lösungsarchitekturen

Kreditausbuchungsprognose mit SQL Server

Mit dieser Lösung wird veranschaulicht, wie Sie ein Machine Learning-Modell mit SQL Server 2016 mit R Services erstellen, um zu prognostizieren, ob für ein Bankdarlehen innerhalb der kommenden drei Monate eine Ausbuchung zu verzeichnen sein wird.

Bonitätsrisiko eines Kredits mit SQL Server

Mit SQL Server 2016 mit R Services können Kreditinstitute mithilfe von Predictive Analytics die Anzahl von Darlehen reduzieren, die Kreditnehmern mit hoher Verzugswahrscheinlichkeit angeboten werden, und auf diese Weise die Rentabilität ihres Kreditportfolios steigern.