Navigáció kihagyása

Mi az a Data Lake?

Ismerje meg, hogyan különböznek az adattavak az adattárházaktól és az adattótárházaktól. Fedezze fel, hogyan hozhat létre skálázható alaprendszert az összes Azure-beli elemzéshez.

Mi az az adattó?

Ez a bevezető útmutató az adattó számos előnyét és használati esetét ismerteti. Megtudhatja, mi az adattó, miért fontos, és miben különbözik az adattárháztól vagy az adattótárháztól. Elsőként azonban definiáljuk az adattó fogalmát.

Az adattó egy olyan központi adattár, amely nagy mennyiségű adatot tölt be és tárol eredeti formájában. Az adatok ezután feldolgozhatók és felhasználhatók különböző elemzési igények kielégítésére. Nyitott, skálázható architektúrájának köszönhetően az adattóba bármilyen forrásból származó, bármilyen típusú adatot be lehet illeszteni, a strukturáltaktól (adatbázistáblák, Excel-munkalapok) a félig strukturáltakon (XML fájlok, weboldalak) át a strukturálatlanokig (képek, hangfájlok, tweetek), mindezt a pontosság csökkenése nélkül. Az adatfájlokat jellemzően szakaszos zónákban tárolják – nyers, tisztított és összeválogatott formában –, hogy a különböző típusú felhasználók az adatokat különböző formákban használhassák igényeiknek megfelelően. Az adattavak biztosítják az alapvető adatok konzisztenciáját a különböző alkalmazásokban, támogatva a big data elemzést, a gépi tanulást, a prediktív elemzést és az intelligens cselekvés más formáit.

Fontosak az adattavak?

A mai nagymértékben összekapcsolt, elemzés alapú világ nem lenne elképzelhető az adattó-megoldások megjelenése nélkül. Ez azért van így, mert a szervezetek átfogó adattó- platformokra, például az Azure Data Lake-re támaszkodnak, hogy a nyers adatokat konszolidáltan, integráltan, biztonságosan és hozzáférhetően tárolhassák. Az Azure Data Lake Storage-hoz hasonló skálázható tárolóeszközök egyetlen központi helyen tárolhatják és védhetik az adatokat, optimális költség mellett megszüntetve a silókat. Ez megteremti az alapot a felhasználók számára a legkülönfélébb számítási feladat kategóriák végrehajtásához, mint például a big data feldolgozás, az SQL-lekérdezések, a szövegbányászat, a streamelési elemzés és a gépi tanulás. Az adatok ezután a felsőbb rétegbeli adatvizualizációk és az alkalmi jelentéskészítési igények kielégítésére használhatók. Az Azure Synapse Analyticshez hasonló modern, végponttól végpontig terjedő adatplatform az adattó köré összpontosuló nagy adatarchitektúra teljes körű igényeit kielégíti.

Adattó használati esetek

Egy jól felépített megoldással az innováció lehetőségei végtelenek. Íme néhány példa arra, hogy a különböző iparágak szervezetei hogyan használják az adattó platformokat a növekedésük optimalizálása érdekében:

  • Folyamatos átvitelű multimédia. Az előfizetés-alapú streamelési vállalatok összegyűjtik és feldolgozzák a vásárlói viselkedésre vonatkozó információkat, amelyeket felhasználhatnak javaslati algoritmusuk fejlesztésére.
  • Pénzügy. A befektetési cégek a valós időben gyűjtött és tárolt legfrissebb piaci adatokat használják a portfóliókockázatok hatékony kezeléséhez.
  • Egészségügy. Az egészségügyi szervezetek a big data-ra támaszkodnak a betegellátás minőségének javítása érdekében. A kórházak hatalmas mennyiségű múltbeli adatot használnak fel a betegutak leegyszerűsítésére, ami jobb eredményeket és alacsonyabb ellátási költségeket biztosít.
  • Omnichannel kiskereskedő. A kiskereskedők adattavakat használnak a különböző kapcsolódási pontokról érkező adatok rögzítésére és konszolidálására, beleértve a mobil, közösségi, csevegési, szóbeli és személyes adatokat.
  • IoT. A hardverérzékelők hatalmas mennyiségű félig strukturált vagy strukturálatlan adatot generálnak a környező fizikai világról. Az adattavak központi adattárat biztosítanak ezeknek az információknak a későbbi elemzéshez.
  • Digital ellátási lánc. Az adattótárházakkal a gyártók összevonhatják a különböző raktározási adatokat, beleértve az EDI-rendszereket, az XML-t és a JSON-eket.
  • Értékesítés. Az adattudósok és az értékesítési mérnökök gyakran készítenek prediktív modelleket, hogy segítsenek meghatározni az ügyfelek viselkedését és csökkentsék az általános lemorzsolódást.

Az adattó és az adattárház összehasonlítása

Most már tudja, hogy mi az adattó, miért fontos, és hogyan használják a különféle szervezetek. De mi a különbség az adattó és az adattárház között? És mikor célszerű az egyiket a másik helyett használni?

Bár az adattavak és az adattárházak hasonlóak abban, hogy egyaránt adatokat tárolnak és dolgoznak fel, mindkét típusnak megvan a maga specialitása, és ezért saját használási eseteik is vannak. Ezért gyakori, hogy egy nagyvállalati szintű szervezet egy adattavat és egy adattárházat is bevon az elemzési ökoszisztémába. A két adattár együttesen egy biztonságos, végponttól végpontig terjedő rendszert alkot a tárolás, a feldolgozás és a gyorsabb betekintés érdekében.

Az adattó különböző forrásokból – üzleti alkalmazások, mobilalkalmazások, IoT-eszközök, közösségi média vagy streamelés – származó relációs és nem relációs adatokat egyaránt rögzít anélkül, hogy az adatok szerkezetét vagy sémáját az adatolvasásig meg kellene határozni. A sémára alkalmazás olvasáskor biztosítja, hogy bármilyen típusú adat nyers formában tárolható legyen. Ennek eredményeképpen az adattavak a strukturált, félig strukturált és strukturálatlan adattípusok széles skáláját tárolhatják, bármilyen méretben. Rugalmas és skálázható jellegük miatt elengedhetetlenek az adatelemzés összetett formáinak elvégzéséhez különböző típusú számításfeldolgozó eszközökkel, például Apache Spark vagy Azure Machine Learning segítségével.

Ezzel szemben az adattárház relációs jellegű. A struktúrát vagy sémát az üzleti és termékkövetelmények modellezik vagy előre definiálják, amelyeket összeválogatnak, megfeleltetnek és optimalizálnak az SQL-lekérdezési műveletekhez. Míg az adattó mindenféle típusú adatot tárol, beleértve a nyers és feldolgozatlan adatokat is, az adattárház olyan adatokat tartalmaz, amelyeket egy adott céllal kezeltek és alakítottak át, és amelyek aztán elemzési vagy működési jelentések forrásául szolgálhatnak. Ezáltal az adattárházak ideálisak a BI-elemzés szabványosabb formáinak létrehozásához, vagy egy már definiált üzleti használási eset kiszolgálásához.

Nincs Data Lake Adattárház
Típus Strukturált, félig strukturált, strukturálatlan Strukturált
Nincs Relációs, nem relációs Relációs
Séma Sémára alkalmazás olvasáskor Sémára alkalmazás íráskor
Formátum Nyers, szűretlen Feldolgozva, ellenőrizve
Források Big data, IoT, közösségi média, streamelési adatok Alkalmazás, üzleti, tranzakciós adatok, kötegelt jelentéskészítés
Skálázhatóság Alacsony költséggel könnyen méretezhető Nehéz és költséges skálázás
Felhasználók Adattudósok, adatmérnökök Adattárház-szakemberek, üzleti elemzők
Használati példák Gépi tanulás, prediktív elemzés, valós idejű elemzés Alapvető jelentéskészítés, BI

Mi az az adattótárház?

Most már tudja, mi a különbség az adattó és az adattárház között. De mi a különbség az adattó és az adattótárház között? És feltétlenül szükség van mindkettőre?

Számos előnye ellenére a hagyományos adattó nem mentes a hiányosságoktól. Mivel az adattavak minden típusú adatot be tudnak fogadni különféle forrásokból, minőségszabályozással, adatsérüléssel és helytelen particionálással kapcsolatos problémák léphetnek fel. A rosszul felügyelt adattó nemcsak az adatintegritást rontja, hanem szűk keresztmetszetekhez, lassú teljesítményhez és biztonsági kockázatokhoz is vezethet.

Itt lép be a képbe az adattótárház. Az adattótárház egy nyílt szabványokon alapuló tárolási megoldás, amely természeténél fogva sokrétű. Megfelelhet az adattudósok és mérnökök igényeinek, akik mélyadat-elemzést és -feldolgozást végeznek, valamint a hagyományos adattárházi szakemberek szükségleteinek, akik az adatokat üzleti intelligenciához és jelentéskészítés céljából válogatják össze és teszik közzé. Az adattótárház szépsége az, hogy minden egyes számítási feladat zökkenőmentesen működhet az adattó felett anélkül, hogy az adatokat egy másik, szerkezetileg előre meghatározott adatbázisba kellene duplikálni. Ez biztosítja, hogy mindenki a legfrissebb adatokkal dolgozzon, emellett pedig csökkenti a redundanciákat.

Az adattótárházak a hagyományos adattavak kihívásait úgy kezelik, hogy közvetlenül a felhőalapú adattavak felett egy Delta Lake tárolási réteget helyeznek el. A tárolási réteg egy rugalmas elemzési architektúrát biztosít, amely képes kezelni az ACID-tranzakciókat (oszthatatlanság, konzisztencia, elkülönítés és tartósság) az adatmegbízhatóság, a streamelési integrációk és a speciális funkciók, például az adatok verziószámozása és a sémakényszerítés érdekében. Ez számos elemzési tevékenységet tesz lehetővé a tavon, mindezt az alapvető adatok konzisztenciájának veszélyeztetése nélkül. Noha az adattótárház szükségessége attól függ, hogy mennyire összetettek az igények, a rugalmassága és a választék számos nagyvállalati szervezet számára optimális megoldássá teszi.

Nincs Data Lake Adattótárház
Típus Strukturált, félig strukturált, strukturálatlan Strukturált, félig strukturált, strukturálatlan
Nincs Relációs, nem relációs Relációs, nem relációs
Séma Sémára alkalmazás olvasáskor Sémára alkalmazás olvasáskor, sémára alkalmazás íráskor
Formátum Nyers, szűretlen, feldolgozott, összeválogatott Nyers, szűretlen, feldolgozott, összeválogatott, delta formátumú fájlok
Források Big data, IoT, közösségi média, streamelési adatok Big data, IoT, közösségi média, streamelési adatok, alkalmazás, üzleti, tranzakciós adatok, kötegelt jelentéskészítés
Skálázhatóság Alacsony költséggel könnyen méretezhető Alacsony költséggel könnyen méretezhető
Felhasználók Adattudósok Üzleti elemzők, adatmérnökök, adattudósok
Használati példák Gépi tanulás, prediktív elemzés Alapvető jelentéskészítés, BI, gépi tanulás, prediktív elemzés

Mi az a adattó architektúra?

Az adattó alapvetően egy olyan adattár, amelynek nincs saját architektúrája. Ahhoz, hogy a lehető legtöbbet hozza ki a lehetőségeiből, eszközök, technológiák és számítási motorok széles skálájára van szükség, amelyek segítenek optimalizálni az adatok integrációját, tárolását és feldolgozását. Ezek az eszközök együttesen egy egységesen rétegzett architektúrát hoznak létre, amelyet a big data táplál, és az adattó felett fut. Ez az architektúra képezheti az adattótárház működési struktúráját is. Minden szervezetnek megvan a maga egyedi konfigurációja, de a legtöbb adattótárház-architektúra a következőket tartalmazza:

  • Erőforrás-kezelés és -vezénylés. Az erőforrás-kezelő lehetővé teszi, hogy az adattó konzisztens módon hajtsa végre a feladatokat azáltal, hogy a megfelelő mennyiségű adatot, erőforrást és számítási teljesítményt a megfelelő helyekre irányítja.
  • Összekötők a könnyű hozzáférés érdekében. A különböző munkafolyamatok lehetővé teszik a felhasználók számára, hogy könnyedén hozzáférjenek – és megosszák – a szükséges adatokat abban a formában, amelyben szükségük van rájuk.
  • Megbízható elemzések. A jó elemzési szolgáltatásnak gyorsnak, méretezhetőnek és elosztottnak kell lennie. Emellett számos különböző számításifeladat-kategóriát kell támogatnia több nyelven.
  • Adatosztályozás. Az adatok profilkészítése, katalogizálás és archiválása segít a szervezeteknek nyomon követni az adatok tartalmát, minőségét, helyét és előzményeit.
  • Kinyerési, betöltési, átalakítási (ELT) folyamatok. Az ELT azokra a folyamatokra utal, amelyekkel az adatokat több forrásból nyerik ki és betöltik az adattó nyers zónájába, majd a kinyerés után megtisztítják és átalakítják, hogy az alkalmazások könnyen felhasználhassák őket.
  • Biztonság és támogatás. Az olyan adatvédelmi eszközök, mint a maszkolás, a naplózás, a titkosítás és a hozzáférés monitorozása biztosítják, hogy az adatok védettek és privát jellegűek maradjanak.
  • Cégirányítás és felügyelet. Ahhoz, hogy az adattó platform a lehető leggördülékenyebben működjön, a felhasználókat meg kell tanítani az architekturális konfigurációra, valamint az adatok és a műveletek kezelésével kapcsolatos ajánlott eljárásokra.

Gyakori kérdések

  • Az adattó egy olyan központi adattár, amely eredeti formájában tölti be, tárolja és teszi lehetővé nagy mennyiségű adat feldolgozását. Minden típusú adatot képes befogadni, amelyet aztán a big data elemzés, a gépi tanulás és az intelligens műveletek más formáihoz használnak fel.

    További információ az adattavakról

  • Az adattavak mindenféle nyers adatot tárolnak, amelyeket az adattudósok különböző projektekhez használhatnak fel. Az adattárházak megtisztított és feldolgozott adatokat tárolnak, amelyek aztán elemzési vagy működési jelentések, valamint speciális BI használati esetek forrásául szolgálhatnak.

    Adattavak összehasonlítása az adattárházakkal

  • Az adattótárház egyesíti az adattó és az adattárház elemeit, hogy rugalmas, teljes körű megoldást alkosson az adattudomány és az üzleti intelligencia számára.

    További információ az adattótárházakról

  • Egyértelműen. Az összes iparágban a főbb szervezetek az adattavakban tárolt nagy mennyiségű adatra támaszkodnak az intelligens műveletek, betekintések és növekedés érdekében.

    Fedezze fel az adattavak előnyeit

  • Az adattó architektúra az eszközök és technológiák olyan speciális konfigurációjára utal, amely elősegíti az adattóból származó adatok integrálását, hozzáférhetőségét, rendszerezését és biztonságossá tételét.

    Az adattó architektúra ajánlott eljárásainak ismertetése

Ismerkedés az ingyenes Azure-fiókokkal

Használjon népszerű elemzési szolgáltatásokat 12 hónapig, több mint 25 szolgáltatást pedig mindig ingyen – továbbá   és  $200 kreditet, amelyet az első 30 napban használat fel.

Kapcsolatfelvétel az Azure értékesítési szakértőjével

Tanácsokat kaphat az Azure-beli elemzések első lépéseivel kapcsolatban. Kérdéseket tehet fel, megismerheti a díjszabást és az ajánlott eljárásokat, és segítséget kaphat az igényeinek megfelelő megoldás megtervezéséhez.