Model úvěrového rizika a výchozí pravděpodobnosti úvěru

Azure Machine Learning
Azure Synapse Analytics
Azure App Service
Azure Data Lake Storage
Power BI

Tento článek popisuje architekturu, která používá Azure Machine Učení k predikci delikvence a výchozí pravděpodobnosti žadatelů o půjčku. Předpovědi modelu jsou založeny na fiskálním chování žadatele. Model používá k klasifikaci žadatelů velkou sadu datových bodů a poskytuje skóre způsobilosti pro každého žadatele.

Apache®, Spark a logo plamene jsou registrované ochranné známky nebo ochranné známky nadace Apache Software Foundation v USA a/nebo v jiných zemích. Použití těchto značek nevyžaduje žádné doporučení Apache Software Foundation.

Architektura

Diagram znázorňující architekturu pro predikci úvěrového rizika

Stáhněte si soubor aplikace Visio s touto architekturou.

Tok dat

Následující tok dat odpovídá předchozímu diagramu:

  1. Úložiště: Data se ukládají v databázi, jako je fond Azure Synapse Analytics, pokud jsou strukturovaná. Starší databáze SQL je možné integrovat do systému. Částečně strukturovaná a nestrukturovaná data je možné načíst do datového jezera.

  2. Příjem a předběžné zpracování: Kanály zpracování Azure Synapse Analytics a zpracování ETL se můžou připojit k datům uloženým v Azure nebo zdrojích třetích stran prostřednictvím integrovaných konektorů. Azure Synapse Analytics podporuje několik metodologií analýzy, které používají SQL, Spark, Azure Data Explorer a Power BI. Pro datové kanály můžete také použít existující orchestraci služby Azure Data Factory.

  3. Zpracování: Azure Machine Učení slouží k vývoji a správě modelů strojového učení.

    1. Počáteční zpracování: Během této fáze se nezpracovaná data zpracovávají za účelem vytvoření kurátorované datové sady, která bude trénovat model strojového učení. Mezi typické operace patří formátování datového typu, imputace chybějících hodnot, inženýring funkcí, výběr funkcí a redukce dimenzí.

    2. Trénování: Během fáze trénování azure machine Učení používá zpracovanou datovou sadu k trénování modelu úvěrového rizika a výběru nejlepšího modelu.

    • Trénování modelů: Můžete použít celou řadu modelů strojového učení, včetně klasických modelů strojového učení a modelů hlubokého učení. Ladění hyperparametrů můžete použít k optimalizaci výkonu modelu.

    • Vyhodnocení modelu: Azure Machine Učení vyhodnocuje výkon každého natrénovaného modelu, abyste mohli vybrat ten nejlepší pro nasazení.

    • Registrace modelu: Zaregistrujete model, který nejlépe funguje ve službě Azure Machine Učení. Tento krok zpřístupní model pro nasazení.

    c. Zodpovědná AI: Zodpovědná AI je přístup k vývoji, hodnocení a nasazování systémů AI bezpečným, důvěryhodným a etickým způsobem. Vzhledem k tomu, že tento model odvodí rozhodnutí o schválení nebo zamítnutí žádosti o půjčku, musíte implementovat zásady zodpovědné umělé inteligence.

    • Metriky nestrannosti vyhodnocuje účinek nespravedlivého chování a umožňují strategie zmírnění rizik. Citlivé funkce a atributy jsou identifikovány v datové sadě a v kohortách (podmnožině) dat. Další informace naleznete v tématu Výkon a nestrannost modelu.

    • Interpretovatelnost je míra, jak dobře dokážete porozumět chování modelu strojového učení. Tato komponenta zodpovědné umělé inteligence generuje popisy predikcí modelu, které jsou srozumitelné pro člověka. Další informace najdete v tématu Interpretovatelnost modelu.

  4. Nasazení strojového učení v reálném čase: Pokud je potřeba žádost okamžitě zkontrolovat ke schválení, musíte použít odvozování modelu v reálném čase.

    1. Online koncový bod spravovaného strojového učení Pro bodování v reálném čase musíte zvolit vhodný cílový výpočetní objekt.
    2. Online žádosti o půjčky využívají bodování v reálném čase na základě vstupu z formuláře žadatele nebo žádosti o půjčku.
    3. Rozhodnutí a vstup použitý pro bodování modelu jsou uloženy v trvalém úložišti a lze je načíst pro budoucí referenci.
  5. Nasazení dávkového strojového učení: Pro offline zpracování půjček je naplánováno, aby se model v pravidelných intervalech aktivoval.

    1. Spravovaný koncový bod dávky Dávkové odvození je naplánované a vytvoří se výsledná datová sada. Rozhodnutí jsou založena na úvěruschopnosti žadatele.
    2. Sada výsledků vyhodnocování z dávkového zpracování se zachová v databázi nebo datovém skladu Azure Synapse Analytics.
  6. Rozhraní pro údaje o aktivitě žadatele: Podrobnosti o vstupu žadatele, interního úvěrového profilu a rozhodnutí modelu jsou všechny fázovány a uloženy v příslušných datových službách. Tyto podrobnosti se používají v rozhodovacím modulu pro budoucí bodování, takže jsou zdokumentované.

    • Úložiště: Všechny podrobnosti o zpracování kreditů se uchovávají v trvalém úložišti.
    • Uživatelské rozhraní: Rozhodnutí o schválení nebo zamítnutí je předloženo žadateli.
  7. Vytváření sestav: Přehledy v reálném čase o počtu zpracovaných a odmítnutých aplikací jsou průběžně prezentovány manažerům a vedení. Mezi příklady sestav patří sestavy částek schválených téměř v reálném čase, vytvořeného portfolia půjček a výkon modelu.

Komponenty

  • Azure Blob Storage poskytuje škálovatelné úložiště objektů pro nestrukturovaná data. Je optimalizovaná pro ukládání souborů, jako jsou binární soubory, protokoly aktivit a soubory, které nevyhovují určitému formátu.
  • Azure Data Lake Storage je základem úložiště pro vytváření nákladově efektivních datových jezer v Azure. Poskytuje úložiště objektů blob s hierarchickou strukturou složek a vylepšeným výkonem, správou a zabezpečením. Poskytuje více petabajtů informací a současně udržuje stovky gigabitů propustnosti.
  • Azure Synapse Analytics je analytická služba, která spojuje ty nejlepší technologie SQL a Spark a jednotné uživatelské prostředí pro Azure Synapse Data Explorer a kanály. Integruje se s Power BI, Azure Cosmos DB a azure machine Učení. Služba podporuje vyhrazené i bezserverové modely prostředků a možnost přepínat mezi těmito modely.
  • Azure SQL Database je vždy aktuální plně spravovaná relační databáze vytvořená pro cloud.
  • Azure Machine Učení je cloudová služba pro správu životního cyklu projektu strojového učení. Poskytuje integrované prostředí pro zkoumání dat, vytváření modelů a správu a nasazování a podporuje přístupy k strojovému učení založenému na kódu a nízkém kódu nebo bez kódu.
  • Power BI je vizualizační nástroj, který poskytuje snadnou integraci s prostředky Azure.
  • služba Aplikace Azure umožňuje vytvářet a hostovat webové aplikace, mobilní back-endy a rozhraní RESTful API bez správy infrastruktury. Mezi podporované jazyky patří .NET, .NET Core, Java, Ruby, Node.js, PHP a Python.

Alternativy

Pomocí Azure Databricksmůžete vyvíjet, nasazovat a spravovat modely strojového učení a analytické úlohy. Služba poskytuje jednotné prostředí pro vývoj modelů.

Podrobnosti scénáře

Organizace ve finančním odvětví potřebují předpovědět úvěrové riziko jednotlivců nebo firem, které požadují kredit. Tento model vyhodnocuje delikvenci a výchozí pravděpodobnosti žadatelů o půjčku.

Predikce úvěrového rizika zahrnuje hloubkovou analýzu chování populace a klasifikaci zákaznické základny do segmentů na základě fiskální odpovědnosti. Mezi další proměnné patří tržní faktory a ekonomické podmínky, které mají významný vliv na výsledky.

Výzvy. Vstupní data zahrnují desítky milionů profilů zákazníků a data o chování zákaznického kreditu a zvyklostech útraty založené na miliardách záznamů z různorodých systémů, jako jsou interní systémy aktivit zákazníků. Data třetích stran o ekonomických podmínkách a analýze trhu země/oblasti můžou pocházet z měsíčních nebo čtvrtletních snímků, které vyžadují načítání a údržbu stovek gb souborů. Informace o žadateli nebo částečně strukturovaných řádcích zákaznických dat a křížové spojení mezi těmito datovými sadami a kontrolami kvality za účelem ověření integrity dat jsou potřeba.

Data se obvykle skládají z široce sloupcových tabulek informací o zákaznících z úvěrových kanceláří společně s analýzou trhu. Aktivita zákazníka se skládá ze záznamů s dynamickým rozložením, které nemusí být strukturované. Data jsou také k dispozici ve volném textu z poznámek ke službám zákazníkům a formulářů pro interakci s žadateli.

Zpracování těchto velkých objemů dat a zajištění aktuálních výsledků vyžaduje zjednodušené zpracování. Potřebujete proces ukládání a načítání s nízkou latencí. Datová infrastruktura by měla být schopná škálovat tak, aby podporovala různorodé zdroje dat a poskytovala možnost spravovat a zabezpečit hraniční síť dat. Platforma strojového učení musí podporovat komplexní analýzu mnoha modelů, které jsou natrénovány, testovány a ověřeny napříč mnoha segmenty populace.

Citlivost dat a ochrana osobních údajů Zpracování dat pro tento model zahrnuje osobní údaje a demografické údaje. Musíte se vyhnout profilaci populací. Musí být omezen přímý přehled všech osobních údajů. Mezi příklady osobních údajů patří čísla účtů, podrobnosti o platební kartě, čísla sociálního pojištění, jména, adresy a PSČ.

Čísla platebních karet a bankovních účtů musí být vždy obfuskovaná. Některé datové prvky musí být maskovány a vždy zašifrovány, což poskytuje žádný přístup k podkladovým informacím, ale k dispozici pro analýzu.

Data musí být při nečinnosti, přenášená a během zpracování šifrovaná prostřednictvím zabezpečených enkláv. Přístup k datovým položkám se protokoluje v řešení monitorování. Produkční systém musí být nastavený s odpovídajícími kanály CI/CD se schváleními, které aktivují nasazení a procesy modelu. Audit protokolů a pracovního postupu by měl poskytovat interakce s daty pro všechny potřeby dodržování předpisů.

Zpracovává se. Tento model vyžaduje vysoký výpočetní výkon pro analýzu, kontextovou velikost a trénování a nasazení modelu. Vyhodnocování modelů je ověřeno u náhodných vzorků, aby se zajistilo, že rozhodnutí o kreditech nezahrnují žádný rasa, pohlaví, etnické nebo zeměpisné umístění. Rozhodovací model je potřeba zdokumentovat a archivovat pro budoucí referenci. Uloží se každý faktor, který je součástí rozhodovacích výsledků.

Zpracování dat vyžaduje vysoké využití procesoru. Zahrnuje zpracování strukturovaných dat SQL ve formátu DB a JSON, zpracování datových rámců Sparku nebo analýzu velkých objemů dat na terabajtech informací v různých formátech dokumentů. Úlohy ELT/ETL dat se plánují nebo aktivují v pravidelných intervalech nebo v reálném čase v závislosti na hodnotě nejnovějších dat.

Dodržování předpisů a regulační rámec. Všechny podrobnosti o zpracování půjčky je potřeba zdokumentovat, včetně odeslané žádosti, funkcí použitých v bodování modelu a sady výsledků modelu. Informace o trénování modelu, data použitá pro trénování a výsledky trénování by se měly zaregistrovat pro budoucí žádosti o referenci a audit a dodržování předpisů.

Dávkové a bodování v reálném čase Některé úlohy jsou proaktivní a dají se zpracovat jako dávkové úlohy, jako jsou předem schválené převody zůstatku. Některé žádosti, jako je zvýšení online kreditu, vyžadují schválení v reálném čase.

Přístup v reálném čase ke stavu online žádostí o půjčku musí být žadateli k dispozici. Finanční instituce vydávající půjčku nepřetržitě sleduje výkon úvěrového modelu a potřebuje získat přehled o metrikách, jako je stav schválení půjčky, počet schválených úvěrů, vydané částky v dolarech a kvalita nových úvěrů původců.

Zodpovědná AI

Řídicí panel zodpovědné umělé inteligence poskytuje jedno rozhraní pro více nástrojů, které vám můžou pomoct implementovat zodpovědnou AI. Zodpovědný standard AI je založen na šesti principech:

Diagram znázorňující šest principů zodpovědné umělé inteligence

Nestrannost a inkluzivnost ve službě Azure Machine Učení Tato komponenta řídicího panelu Zodpovědné umělé inteligence pomáhá vyhodnotit nespravedlivé chování tím, že se vyhne škodám přidělení a škodám kvality služeb. Můžete ho použít k posouzení nestrannosti mezi citlivými skupinami definovanými z hlediska pohlaví, věku, etnického původu a dalších charakteristik. Během posuzování se kvantifikuje nestrannost prostřednictvím metrik nestrannosti. Algoritmy pro zmírnění rizik byste měli implementovat v opensourcovém balíčku Fairlearn , který používá omezení parity.

Spolehlivost a bezpečnost ve službě Azure Machine Učení. Komponenta analýzy chyb zodpovědné umělé inteligence vám může pomoct:

  • Získejte hluboké znalosti o tom, jak se pro model distribuuje selhání.
  • Identifikujte kohorty dat, které mají vyšší míru chyb než celkový srovnávací test.

Transparentnost ve službě Azure Machine Učení Zásadní součástí transparentnosti je pochopení toho, jak funkce ovlivňují model strojového učení.

  • Interpretovatelnost modelu vám pomůže pochopit, co ovlivňuje chování modelu. Generuje popisy predikcí modelu, které jsou srozumitelné pro člověka. Toto porozumění pomáhá zajistit, abyste modelu důvěřovali a mohli ho ladit a vylepšovat. InterpretML vám může pomoct pochopit strukturu sklářských modelů nebo vztah mezi funkcemi v modelech hluboké neurální sítě černé skříňky.
  • Kontrafaktuální citlivostní citlivost vám může pomoct pochopit a ladit model strojového učení z hlediska toho, jak reaguje na změny funkcí a perturbace.

Ochrana osobních údajů a zabezpečení ve službě Azure Machine Učení Správci strojového učení musí vytvořit zabezpečenou konfiguraci pro vývoj a správu nasazení modelů. Funkce zabezpečení a zásad správného řízení vám můžou pomoct dodržovat zásady zabezpečení vaší organizace. Další nástroje vám můžou pomoct vyhodnotit a zabezpečit vaše modely.

Odpovědnost ve službě Azure Machine Učení Operace strojového učení (MLOps) jsou založené na principech a postupech DevOps, které zvyšují efektivitu pracovních postupů AI. Azure Machine Učení vám může pomoct s implementací funkcí MLOps:

  • Registrace, zabalení a nasazení modelů
  • Získání oznámení a upozornění na změny v modelech
  • Zachycení dat zásad správného řízení pro kompletní životní cyklus
  • Monitorování provozních problémů s aplikacemi

Tento diagram znázorňuje možnosti MLOps služby Azure Machine Učení:

Diagram, který popisuje možnosti MLOps služby Azure Machine Učení

Potenciální případy použití

Toto řešení můžete použít v následujících scénářích:

  • Finance: Získejte finanční analýzu zákazníků nebo analýzu napříč prodeji zákazníků pro cílené marketingové kampaně.
  • Zdravotnictví: Jako vstup použijte informace o pacientech a navrhněte nabídky léčby.
  • Pohostinství: Vytvořte profil zákazníka a navrhněte nabídky pro hotely, lety, výletní balíčky a členství.

Důležité informace

Tyto aspekty implementují pilíře dobře architektuře Azure, což je sada hlavních principů, které můžete použít ke zlepšení kvality úlohy. Další informace naleznete v tématu Microsoft Azure Well-Architected Framework.

Zabezpečení

Zabezpečení poskytuje záruky proti záměrným útokům a zneužití cenných dat a systémů. Další informace najdete v tématu Přehled pilíře zabezpečení.

Řešení Azure poskytují hloubkovou ochranu a nulová důvěra (Zero Trust) přístup.

Zvažte implementaci následujících funkcí zabezpečení v této architektuře:

Optimalizace nákladů

Optimalizace nákladů se týká snížení zbytečných výdajů a zlepšení efektivity provozu. Další informace najdete v tématu Přehled pilíře optimalizace nákladů.

Pokud chcete odhadnout náklady na implementaci tohoto řešení, použijte cenovou kalkulačku Azure.

Zvažte také tyto prostředky:

Provozní dokonalost

Efektivita provozu zahrnuje provozní procesy, které nasazují aplikaci a udržují ji spuštěnou v produkčním prostředí. Další informace najdete v tématu Přehled pilíře efektivity provozu.

Řešení strojového učení musí být škálovatelná a standardizovaná pro snadnější správu a údržbu. Ujistěte se, že vaše řešení podporuje průběžné odvozování pomocí cyklů opětovného trénování a automatizovaných opětovného nasazení modelů.

Další informace najdete v akcelerátoru řešení Azure MLOps (v2).

Efektivita výkonu

Efektivita výkonu je schopnost úlohy škálovat se tak, aby efektivním způsobem splňovala požadavky, které na ni kladou uživatelé. Další informace najdete v tématu Přehled pilíře efektivity výkonu.

Přispěvatelé

Tento článek spravuje Microsoft. Původně byla napsána následujícími přispěvateli.

Hlavní autor:

Další přispěvatel:

Pokud chcete zobrazit neveřejné profily LinkedIn, přihlaste se na LinkedIn.

Další kroky