Hitelkockázat és alapértelmezett valószínűség modellje

Azure Machine Learning
Azure Synapse Analytics
Azure App Service
Azure Data Lake Storage
Power BI

Ez a cikk egy olyan architektúrát ismertet, amely az Azure Machine Tanulás használatával előrejelzi a hiteligénylők delinquency és alapértelmezett valószínűségét. A modell előrejelzései a kérelmező pénzügyi viselkedésén alapulnak. A modell számos adatpontot használ a pályázók besorolásához és az egyes pályázók jogosultsági pontszámának megadásához.

Az Apache®, a Spark és a láng emblémája az Apache Software Foundation bejegyzett védjegye vagy védjegye a Egyesült Államok és/vagy más országokban. Az Apache Software Foundation nem támogatja ezeket a jeleket.

Architektúra

Diagram that shows an architecture for predicting credit risk.

Töltse le az architektúra Visio-fájlját.

Adatfolyam

Az alábbi adatfolyam az előző diagramnak felel meg:

  1. Tárolás: Az adatok egy olyan adatbázisban tárolódnak, mint egy Azure Synapse Analytics-készlet, ha strukturált. A régebbi SQL-adatbázisok integrálhatók a rendszerbe. A félig strukturált és strukturálatlan adatok betölthetők egy adattóba.

  2. Betöltés és előfeldolgozás: Az Azure Synapse Analytics feldolgozási folyamatai és az ETL-feldolgozás beépített összekötők segítségével csatlakozhat az Azure-ban vagy külső forrásokban tárolt adatokhoz. Az Azure Synapse Analytics több olyan elemzési módszertant támogat, amelyek az SQL, a Spark, az Azure Data Explorer és a Power BI használatát használják. A meglévő Azure Data Factory-vezénylést is használhatja az adatfolyamokhoz.

  3. Feldolgozás: Az Azure Machine Tanulás a gépi tanulási modellek fejlesztésére és kezelésére szolgál.

    1. Kezdeti feldolgozás: Ebben a szakaszban a nyers adatok feldolgozásra kerülnek egy válogatott adatkészlet létrehozásához, amely betanít egy gépi tanulási modellt. A tipikus műveletek közé tartozik az adattípus formázása, a hiányzó értékek számítása, a funkciófejlesztés, a funkcióválasztás és a dimenziócsökkentés.

    2. Oktatás: A betanítási szakaszban az Azure Machine Tanulás a feldolgozott adatkészlet használatával betanítja a hitelkockázati modellt, és kiválasztja a legjobb modellt.

    • Modellbetanítás: Számos gépi tanulási modellt használhat, beleértve a klasszikus gépi tanulást és a mélytanulási modelleket is. A hiperparaméter-finomhangolással optimalizálhatja a modell teljesítményét.

    • Modellértékelés: Az Azure Machine Tanulás értékeli az egyes betanított modellek teljesítményét, így kiválaszthatja a legjobbat az üzembe helyezéshez.

    • Modellregisztráció: Az Azure Machine Tanulás legjobban teljesítő modellt regisztrálja. Ez a lépés elérhetővé teszi a modellt az üzembe helyezéshez.

    c. Felelős AI: A felelős AI az AI-rendszerek biztonságos, megbízható és etikus fejlesztésének, értékelésének és üzembe helyezésének megközelítése. Mivel ez a modell egy hitelkérelem jóváhagyására vagy elutasítására vonatkozó döntést hoz, implementálnia kell a felelős AI alapelveit.

    • A méltányossági metrikák értékelik a tisztességtelen viselkedés hatását, és lehetővé teszik a kockázatcsökkentési stratégiákat. A bizalmas jellemzők és attribútumok az adathalmazban és az adatok kohorszaiban (részhalmazaiban) vannak azonosítva. További információ: Modell teljesítménye és méltányossága.

    • Az értelmezhetőség annak mértéke, hogy mennyire lehet jól megérteni a gépi tanulási modellek viselkedését. A Felelős AI ezen összetevője a modell előrejelzéseinek emberi-érthető leírását hozza létre. További információkért lásd a modell értelmezhetőségét.

  4. Valós idejű gépi tanulás üzembe helyezése: Valós idejű modellkövetkezést kell használnia, amikor a kérést azonnal ellenőrizni kell jóváhagyás céljából.

    1. Felügyelt gépi tanulás online végpontja. A valós idejű pontozáshoz ki kell választania egy megfelelő számítási célt.
    2. Az online hitelkérelmek valós idejű pontozást használnak a kérelmező űrlapjának vagy hitelkérelmének bemenete alapján.
    3. A döntés és a modell pontozásához használt bemenet állandó tárolóban van tárolva, és lekérhető későbbi referenciaként.
  5. Batch machine learning deployment: Offline hitelfeldolgozás esetén a modell rendszeres időközönként aktiválódik.

    1. Felügyelt kötegvégpont. A kötegelt következtetés ütemezése és az eredményadatkészlet létrehozása. A határozatok a kérelmező hitelképességén alapulnak.
    2. A kötegelt feldolgozás eredményhalmaza megmarad az adatbázisban vagy az Azure Synapse Analytics adattárházban.
  6. Interfész a kérelmező tevékenységével kapcsolatos adatokhoz: A kérelmező által megadott adatok, a belső hitelprofil és a modell döntése mind szakaszosak és a megfelelő adatszolgáltatásokban vannak tárolva. Ezek a részletek a döntési motorban lesznek felhasználva a későbbi pontozáshoz, így azok dokumentálva lesznek.

    • Tárolás: A kreditfeldolgozás minden részlete megmarad az állandó tárolóban.
    • Felhasználói felület: A jóváhagyó vagy elutasító döntés megjelenik a kérelmező számára.
  7. Jelentéskészítés: A feldolgozott alkalmazások számáról, valamint az eredmények jóváhagyásáról vagy elutasításáról a vezetők és a vezetőség folyamatosan valós idejű elemzéseket készít. Ilyenek például a közel valós idejű jelentések a jóváhagyott összegekről, a létrehozott hitelportfólióról és a modell teljesítményéről.

Összetevők

  • Az Azure Blob Storage skálázható objektumtárolót biztosít strukturálatlan adatokhoz. Olyan fájlok tárolására van optimalizálva, mint a bináris fájlok, a tevékenységnaplók és az adott formátumnak nem megfelelő fájlok.
  • Az Azure Data Lake Storage a költséghatékony adattavak azure-beli létrehozásának alapja. Hierarchikus mappastruktúrával, valamint fokozott teljesítménnyel, felügyelettel és biztonsággal biztosítja a blobtárolót. Több petabájtnyi információt biztosít, miközben több száz gigabites átviteli sebességet tart fenn.
  • Az Azure Synapse Analytics egy olyan elemzési szolgáltatás, amely egyesíti az SQL- és Spark-technológiák legjobbjait, valamint egységes felhasználói élményt biztosít az Azure Synapse Data Explorerhez és folyamatokhoz. Integrálható a Power BI,az Azure Cosmos DB és az Azure Machine Tanulás. A szolgáltatás támogatja a dedikált és kiszolgáló nélküli erőforrásmodelleket, valamint a modellek közötti váltás lehetőségét.
  • Az Azure SQL Database egy mindig naprakész, teljes mértékben felügyelt relációs adatbázis, amely a felhőhöz készült.
  • Az Azure Machine Tanulás egy felhőalapú szolgáltatás a gépi tanulási projekt életciklusának kezeléséhez. Integrált környezetet biztosít az adatfeltáráshoz, a modellkészítéshez és a felügyelethez, valamint az üzembe helyezéshez, és támogatja a gépi tanulás kódelső és alacsony kódszámú/kód nélküli megközelítéseit.
  • A Power BI egy vizualizációs eszköz, amely egyszerű integrációt biztosít az Azure-erőforrásokkal.
  • Azure-alkalmazás szolgáltatás lehetővé teszi webalkalmazások, mobil háttérrendszerek és RESTful API-k létrehozását és üzemeltetését az infrastruktúra kezelése nélkül. A támogatott nyelvek közé tartozik a .NET, a .NET Core, a Java, a Ruby, a Node.js, a PHP és a Python.

Alternatívák

Az Azure Databrickshasználatával gépi tanulási modelleket és elemzési számítási feladatokat fejleszthet, helyezhet üzembe és kezelhet. A szolgáltatás egységes környezetet biztosít a modellfejlesztéshez.

Forgatókönyv részletei

A pénzügyi ágazatban működő szervezeteknek előre kell jeleznie a hiteligénylést kérő magánszemélyek vagy vállalkozások hitelkockázatát. Ez a modell kiértékeli a hitelkérelmezők késedelmi és alapértelmezett valószínűségét.

A hitelkockázat-előrejelzés magában foglalja a populáció viselkedésének részletes elemzését, és az ügyfélbázis pénzügyi felelősségen alapuló szegmensekbe való besorolását. Egyéb változók közé tartoznak a piaci tényezők és a gazdasági feltételek, amelyek jelentős hatással vannak az eredményekre.

Kihívások. A bemeneti adatok több tízmillió ügyfélprofilt és ügyfélhitel-viselkedésre és költési szokásokra vonatkozó adatokat tartalmaznak, amelyek különböző rendszerek, például belső ügyféltevékenységi rendszerek rekordjainak milliárdjaira épülnek. A gazdasági feltételekre és az ország/régió piacelemzésére vonatkozó harmadik féltől származó adatok olyan havi vagy negyedéves pillanatképekből származhatnak, amelyek több száz GB fájl betöltését és karbantartását igénylik. Szükség van a hiteliroda adataira a kérelmezőről vagy az ügyféladatok részben strukturált sorairól, valamint az adathalmazok közötti keresztcsatlakozásokról és az adatok integritásának ellenőrzésére vonatkozó minőségi ellenőrzésekről.

Az adatok általában a hitelirodák ügyféladatainak széles oszloptábláiból és a piacelemzésből állnak. Az ügyféltevékenység olyan dinamikus elrendezésű rekordokból áll, amelyek nem strukturálhatók. Az adatok ingyenes formában is elérhetők az ügyfélszolgálati jegyzetekből és a kérelmezők közötti interakciós űrlapokból.

Ezeknek a nagy mennyiségű adatnak a feldolgozása és az eredmények aktuális állapotának biztosítása leegyszerűsített feldolgozást igényel. Kis késésű tárolási és lekérési folyamatra van szükség. Az adatinfrastruktúra képesnek kell lennie a különböző adatforrások támogatására, valamint az adatterület kezelésére és védelmére. A gépi tanulási platformnak támogatnia kell a számos betanított, tesztelt és ellenőrzött modell összetett elemzését számos populációs szegmensben.

Adatérzékenység és adatvédelem. A modell adatfeldolgozása magában foglalja a személyes adatokat és a demográfiai adatokat. El kell kerülnie a populációk profilkészítését. Az összes személyes adat közvetlen láthatóságát korlátozni kell. A személyes adatok közé tartoznak például a fiókszámok, a hitelkártya adatai, a társadalombiztosítási számok, a nevek, a címek és az irányítószámok.

A hitelkártya- és bankszámlaszámokat mindig el kell rögzíteni. Bizonyos adatelemeket maszkolni és mindig titkosítottnak kell lenniük, így nem férnek hozzá az alapul szolgáló információkhoz, de elemzésre rendelkezésre állnak.

Az adatokat biztonságos enklávékkal kell titkosítani inaktív állapotban, átvitel közben és feldolgozás közben. Az adatelemekhez való hozzáférés egy monitorozási megoldásban van naplózva. Az éles rendszert megfelelő CI/CD-folyamatokkal kell beállítani a modelltelepítéseket és folyamatokat aktiváló jóváhagyásokkal. A naplók és munkafolyamatok naplózásának biztosítania kell az adatokkal való interakciót a megfelelőségi igényeknek megfelelően.

Processing. Ez a modell nagy számítási teljesítményt igényel az elemzéshez, a környezetualizációhoz, valamint a modell betanításához és üzembe helyezéséhez. A modell pontozását véletlenszerű minták alapján ellenőrzi a rendszer, hogy a hiteldöntések ne tartalmazzanak faji, nemi, etnikai vagy földrajzi elhelyezkedési torzításokat. A döntési modellt a jövőben dokumentálni és archiválni kell. A döntési eredményekben érintett minden tényező tárolása történik.

Az adatfeldolgozáshoz magas processzorhasználat szükséges. Ez magában foglalja a strukturált adatok SQL-feldolgozását DB- és JSON-formátumban, az adatkeretek Spark-feldolgozását vagy a big data elemzést több terabájtnyi információn különböző dokumentumformátumokban. Az adatELT/ETL-feladatok ütemezése vagy aktiválása rendszeres időközönként vagy valós időben történik a legutóbbi adatok értékétől függően.

Megfelelőségi és szabályozási keretrendszer. A hitelfeldolgozás minden részletét dokumentálni kell, beleértve a benyújtott alkalmazást, a modell pontozásában használt funkciókat és a modell eredményhalmazát. A modell betanítási adatait, a betanításhoz használt adatokat és a betanítási eredményeket regisztrálni kell a jövőbeli referencia- és auditálási és megfelelőségi kérelmekhez.

Batch és valós idejű pontozás. Bizonyos feladatok proaktívak, és kötegelt feladatként is feldolgozhatók, például előre jóváhagyott egyenlegátvitelekként. Egyes kérések, például az online kreditsorok növekedése valós idejű jóváhagyást igényelnek.

Az online hitelkérelmek állapotához való valós idejű hozzáférést a kérelmező számára elérhetővé kell tenni. A hitelkibocsátó pénzügyi intézmény folyamatosan figyeli a hitelmodell teljesítményét, és olyan metrikákra van szüksége, mint a hitel-jóváhagyási állapot, a jóváhagyott hitelek száma, a kibocsátott dollárösszegek és az új hitelfelvételek minősége.

Felelős AI

A Felelős AI-irányítópult egyetlen felületet biztosít több olyan eszközhöz, amely segíthet a Felelős AI megvalósításában. A Felelős AI Standard hat alapelven alapul:

Diagram that shows the six principles of Responsible AI.

Méltányosság és befogadás az Azure Machine Tanulás. A Felelős AI-irányítópult ezen összetevője segít a tisztességtelen viselkedések értékelésében azáltal, hogy elkerüli a kiosztással és a szolgáltatásminőséggel kapcsolatos károkat. Segítségével felmérheti a méltányosságot a nem, az életkor, az etnikum és más jellemzők szempontjából meghatározott érzékeny csoportok között. Az értékelés során a méltányosság az egyenlőtlenségi metrikákon keresztül számszerűsíthető. A fairlearn nyílt forráskódú csomagban implementálnia kell a kockázatcsökkentési algoritmusokat, amelyek paritáskorlátokat használnak.

Megbízhatóság és biztonság az Azure Machine Tanulás. A Felelős AI hibaelemzési összetevője a következő segítségére lehet:

  • Alapos ismereteket szerezhet a hibák modellhez való elosztásáról.
  • Azonosítsa azoknak az adatoknak a kohorszait, amelyek hibaaránya magasabb, mint a teljes teljesítménymutató.

Átláthatóság az Azure Machine Tanulás. Az átláthatóság fontos része annak megértése, hogy a funkciók hogyan befolyásolják a gépi tanulási modellt.

  • A modell értelmezhetősége segít megérteni, hogy mi befolyásolja a modell viselkedését. A modell előrejelzéseinek emberi-érthető leírását hozza létre. Ez a megértés segít biztosítani, hogy megbízhasson a modellben, és segít a hibakeresésben és a fejlesztésben. Az InterpretML segíthet megérteni az üvegdobozos modellek szerkezetét vagy a feketedobozos mély neurális hálózati modellek funkciói közötti kapcsolatot.
  • Az ellenfaktuális lehetőség segíthet a gépi tanulási modellek megértésében és hibakeresésében abban, hogy hogyan reagál a funkcióváltozásokra és a zavargásokra.

Adatvédelem és biztonság az Azure Machine Tanulás. A gépi tanulási rendszergazdáknak biztonságos konfigurációt kell létrehozniuk a modellek üzembe helyezésének fejlesztéséhez és kezeléséhez. A biztonsági és szabályozási funkciók segíthetnek a szervezet biztonsági szabályzatainak betartásában. Más eszközök segíthetnek a modellek értékelésében és védelmében.

Elszámoltathatóság az Azure Machine Tanulás. A gépi tanulási műveletek (MLOps) olyan DevOps-alapelveken és gyakorlatokon alapulnak, amelyek növelik az AI-munkafolyamatok hatékonyságát. Az Azure Machine Tanulás segíthet az MLOps képességeinek megvalósításában:

  • Modellek regisztrálása, csomagolása és üzembe helyezése
  • Értesítések és riasztások lekérése a modellek változásaihoz
  • Szabályozási adatok rögzítése a teljes életciklushoz
  • Alkalmazások figyelése üzemeltetési problémák esetén

Ez az ábra az Azure Machine Tanulás MLOps képességeit mutatja be:

Diagram that describes the MLOps capabilities of Azure Machine Learning.

Lehetséges használati esetek

Ezt a megoldást a következő forgatókönyvekre alkalmazhatja:

  • Pénzügy: Az ügyfelek pénzügyi elemzésének vagy az ügyfelek értékesítésközi elemzésének lekérése célzott marketingkampányokhoz.
  • Egészségügyi ellátás: Használja a betegadatokat bemenetként a kezelési ajánlatok javaslatához.
  • Vendéglátás: Hozzon létre egy ügyfélprofilt, amely felajánlja a szállodák, járatok, körutazási csomagok és tagságok ajánlatait.

Megfontolandó szempontok

Ezek a szempontok implementálják az Azure Well-Architected Framework alappilléreit, amely a számítási feladatok minőségének javítására használható vezérelvek készlete. További információ: Microsoft Azure Well-Architected Framework.

Biztonság

A biztonság biztosítékokat nyújt a szándékos támadások és az értékes adatokkal és rendszerekkel való visszaélés ellen. További információ: A biztonsági pillér áttekintése.

Az Azure-megoldások részletes védelmet és Teljes felügyelet megközelítést biztosítanak.

Fontolja meg az alábbi biztonsági funkciók implementálását ebben az architektúrában:

Költségoptimalizálás

A költségoptimalizálás a szükségtelen kiadások csökkentéséről és a működési hatékonyság javításáról szól. További információ: A költségoptimalizálási pillér áttekintése.

A megoldás megvalósításának költségeinek becsléséhez használja az Azure díjkalkulátorát.

Vegye figyelembe az alábbi erőforrásokat is:

Kiváló működés

Az üzemeltetési kiválóság azokat az üzemeltetési folyamatokat fedi le, amelyek üzembe helyeznek egy alkalmazást, és éles környezetben tartják azt. További információ: A működési kiválósági pillér áttekintése.

A gépi tanulási megoldásoknak méretezhetőnek és szabványosítottnak kell lenniük a könnyebb felügyelet és karbantartás érdekében. Győződjön meg arról, hogy a megoldás támogatja a folyamatos következtetést az újratanítási ciklusokkal és a modellek automatizált újratelepítésével.

További információ: Azure MLOps (v2) megoldásgyorsító.

Teljesítménybeli hatékonyság

A teljesítménybeli hatékonyság lehetővé teszi, hogy a számítási feladatok hatékonyan méretezhetők legyenek a felhasználók igényei szerint. További információ: Teljesítményhatékonysági pillér áttekintése.

Közreműködők

Ezt a cikket a Microsoft tartja karban. Eredetileg a következő közreműködők írták.

Fő szerző:

Egyéb közreműködő:

A nem nyilvános LinkedIn-profilok megtekintéséhez jelentkezzen be a LinkedInbe.

További lépések