Trace Id is missing
Ugrás a tartalomtörzsre
Azure

Mi az az adattó?

Megismerheti az adattavak és az adattárházak közötti különbséget. Megtudhatja, hogyan hozhat létre skálázható alapot az összes elemzéshez az Azure-ral.

Az adattó definíciója

Ez a bevezető útmutató az adattó számos előnyét és használati esetét ismerteti. Megtudhatja, mi az az adattó, miért fontos, és felfedezheti az adattavak és az adattárházak közötti különbséget. Először is definiáljuk az adattó kifejezést.

Az adattó egy központi adattár, amely nagy mennyiségű adat betöltését és tárolását teszi lehetővé eredeti formájában. Az adatok ezután feldolgozhatók és felhasználhatók számos elemzési igény alapjaként. A nyílt, méretezhető architektúra miatt az adattó bármilyen típusú adatot képes kezelni bármilyen forrásból, a strukturált (adatbázistábláktól, Excel-munkalapoktól) a félig strukturált (XML-fájlokig, weblapokig) és a strukturálatlan (képekig, hangfájlokig, tweetekig), mindezt a megbízhatóság feláldozása nélkül. Az adatfájlok tárolása jellemzően szakaszos zónákban történik (nyersen, tisztítva és összeválogatva), így a különböző típusú felhasználók az igényeiknek megfelelően használhatják az adatokat a különböző űrlapjaikon. Az adattavak alapvető adatkonzisztenciát biztosítanak különböző alkalmazásokhoz, a big data elemzésgépi tanulása gépi tanulási, a prediktív elemzések és az intelligens műveletek egyéb formái számára.

Miért fontosak az adattavak a vállalkozások számára?

Napjaink nagy mértékben összekapcsolt, elemzésalapú világa nem lenne lehetséges az adattó-megoldások megjelenése nélkül. Ennek az az oka, hogy a szervezetek átfogó adattóplatformokra, például az Azure Data Lake-re támaszkodnak a nyers adatok konszolidált, integrált, biztonságos és hozzáférhető megőrzéséhez. Az Azure Data Lake Storage-hez hasonló méretezhető tárolóeszközök egyetlen központi helyen tárolhatják és védhetik az adatokat, így az optimális költségekkel kiküszöbölhetők a silók. Ez lefekteti a felhasználók számára a számítási feladatok számos kategóriájának, például a big data feldolgozásának, az SQL-lekérdezéseknek, a szövegbányászatnak, a streamelési elemzésnek és a gépi tanulásnak az alapját. Az adatok ezután a felsőbb rétegbeli adatvizualizációk és az alkalmi jelentéskészítési igények kielégítésére használhatók. A modern, teljes körű adatplatform, például az Azure Synapse Analytics az adattó körül elhelyezkedő big data architektúra teljes igényeit kielégíti.

Adattó-használati esetek

Egy jól felépítésű megoldással végtelen az innováció lehetősége. Íme néhány példa arra, hogyan használják a különböző iparágakban a szervezetek az adattó platformokat a növekedésük optimalizálására:

  • Streaming média. Az előfizetés-alapú streamelési vállalatok adatokat gyűjtenek és dolgoznak fel az ügyfelek viselkedéséről, amelyeket felhasználhatnak a javaslati algoritmusuk javítására.

  • Pénzügy. A befektetési cégek a valós időben gyűjtött és tárolt legfrissebb piaci adatokat használják a portfóliókockázatok hatékony kezeléséhez.

  • Egészségügy. Az egészségügyi szervezetek big datára támaszkodnak a betegek ellátásának minőségének javítására. A kórházak hatalmas mennyiségű előzményadatot használnak a betegútvonalak egyszerűsítésére, ami jobb eredményeket és alacsonyabb ellátási költségeket eredményez.

  • Omnichannel kereskedő. A kiskereskedők adattavakkal rögzítik és összesítik a különböző érintési pontokról érkező adatokat, beleértve a mobileszközökről, a közösségi hálózatokról, a csevegésről, a szájról-szájra terjedő és személyesen érkező adatokat.

  • IoT. A hardverérzékelők hatalmas mennyiségű félig strukturált vagy strukturálatlan adatot generálnak a környező fizikai világról. Az adattavak egy központi adattárat biztosítanak az információk későbbi elemzéshez való használatához.

  • Digitális ellátási lánc. Az adattavakkal a gyártók összevonják a különböző adattárházadatokat, beleértve az EDI-rendszereket, az XML-t és a JSON-eket.

  • Értékesítés. Az adattudósok és az értékesítési mérnökök gyakran készítenek prediktív modelleket, amelyek segítenek meghatározni az ügyfelek viselkedését és csökkenteni az általános lemorzsolódást.

Az adattó és az adattárház közötti különbségek

Most már tudja, hogy mi az az adattó, miért fontos, és hogyan használják különböző szervezetekben. De mi a különbség az adattó és az adattárház között? És mikor érdemes az egyiket vagy a másikat használni?

Míg az adattavak és adattárházak hasonlóak abban, hogy az adatokat tárolják és dolgozzák fel, mindegyiknek saját szakterülete van, és így saját használati eseteik is. Ezért gyakori, hogy egy nagyvállalati szintű szervezet adattavat és adattárházat is belefoglal az elemzési ökoszisztémába. Mindkét adattár együttműködik, hogy biztonságos, teljes körű rendszert alakítson ki a tároláshoz, a feldolgozáshoz és a gyorsabb elemzési időhöz.

Az adattó különböző forrásokból - üzleti alkalmazások, mobilalkalmazások, IoT-eszközök, közösségi média vagy streamelés - származó relációs és nem relációs adatokat egyaránt rögzít anélkül, hogy az adatok szerkezetét vagy sémáját az adatolvasásig meg kellene határozni. A séma olvasáskor biztosítja, hogy bármilyen típusú adat tárolható nyers formában. Ennek eredményeképpen az adattavak sokféle adattípust tárolhatnak, a strukturálttól a félig strukturáltig, a strukturálatlanig, bármilyen méretben. Rugalmas és méretezhető természetük miatt nélkülözhetetlenek az adatelemzés összetett formáinak végrehajtásához különböző típusú számítási feldolgozási eszközökkel, például Apache Spark vagy Azure Machine Learning.

Ezzel szemben az adattárház relációs jellegű. A struktúrát vagy sémát olyan üzleti és termékkövetelmények modellezik vagy előre definiálják, amelyek össze vannak válogatva, megfelelnek és SQL-lekérdezési műveletekhez vannak optimalizálva. Míg az adattó minden struktúratípus adatait tárolja, beleértve a nyers és a feldolgozatlan adatokat is, az adattárházak egy meghatározott céllal kezelt és átalakított adatokat tárolnak, amelyeket aztán elemzési vagy üzemeltetési jelentések készítésére használhatnak. Ez ideálissá teszi az adattárházakat szabványosabb BI-elemzési módok létrehozásához, vagy egy már definiált üzleti használati eset kiszolgálásához.

Adattó Adattárház
Típus Strukturált, részben strukturált és strukturálatlan Strukturált
  Relációs, nem relációs Relációs
Séma Séma olvasáskor Séma íráskor
Formátum Nyers, szűretlen Feldolgozott, megvizsgált
Források Big data, IoT, közösségi média, adatok streamelése Alkalmazás, üzleti, tranzakciós adatok, kötegelt jelentéskészítés
Skálázhatóság Könnyen, kis költséggel skálázható Nehezen és költségesen skálázható
Felhasználók Adattudósok, adatmérnökök Adattárház-szakemberek, üzleti elemzők
Használati példák Gépi tanulás, prediktív elemzés, valós idejű elemzések Alapvető jelentéskészítés, BI

Az adattó és az adattárház közötti különbségek

Most már tudja, mi a különbség az adattó és az adattárház között. De mi a különbség az adattó és az adattárház között? És szükség van mindkettőre?

Számos előnye ellenére a hagyományos adattó nem mentes a hátulütőktől. Mivel az adattavak sokféle forrásból származó adatot képesek kezelni, a minőség-ellenőrzéssel, az adatsérüléssel és a nem megfelelő particionálással kapcsolatos problémák léphetnek fel. A rosszul felügyelt adattó nem csupán az adatok integritását rontja, hanem szűk keresztmetszetekhez, lassú teljesítményhez és biztonsági kockázatokhoz is vezethet.

Itt jön a képbe az adattárház. Az adattárház egy nyílt szabványokon alapuló tárolási megoldás, amely természetében sokrétű. Képes kielégíteni a mély adatelemzést és -feldolgozást végző adatszakértők és mérnökök igényeit, valamint a hagyományos adattárház-szakemberek igényeit, akik üzleti intelligencia és jelentéskészítés céljából összeállítják és közzéteszik az adatokat. Az adattárház szépsége az, hogy minden számítási feladat zökkenőmentesen működhet az adattó felett, anélkül, hogy az adatokat egy másik, szerkezetileg előre definiált adatbázisba kellene duplikálni. Ez biztosítja, hogy mindenki a legfrissebb adatokon dolgozzon, miközben a redundanciákat is csökkenti.

Az adattótárházak úgy oldják meg a hagyományos adattavak kihívásait, hogy egy Delta Lake tárolási réteget adnak hozzá, közvetlenül a felhőbeli adattóhoz. A tárolási réteg egy rugalmas elemzési architektúrát biztosít, amely képes kezelni az ACID-tranzakciókat (atomitás, konzisztencia, elkülönítés és tartósság) az adatmegbízhatóság, a streamintegrációk és a fejlett funkciók, például az adatok verziószámozása és a sémakényszerítés érdekében. Ez számos elemzési tevékenységet tesz lehetővé a tavon anélkül, hogy veszélyeztetné az alapvető adatok konzisztenciáját. Bár a tóház szükségessége attól függ, hogy mennyire összetettek az Ön igényei, rugalmassága és tartománya miatt sok vállalati szervezet számára optimális megoldást jelent.

Adattó Adattótárház
Típus Strukturált, részben strukturált és strukturálatlan Strukturált, részben strukturált és strukturálatlan
  Relációs, nem relációs Relációs, nem relációs
Séma Séma olvasáskor Séma olvasásra, séma írásra
Formátum Nyers, szűretlen, feldolgozott, válogatott Nyers, szűretlen, feldolgozott, válogatott, delta-formátumú fájlok
Források Big data, IoT, közösségi média, adatok streamelése Big data, IoT, közösségi média, streamelési adatok, alkalmazás, üzleti, tranzakciós adatok, kötegelt jelentéskészítés
Skálázhatóság Könnyen, kis költséggel skálázható Könnyen, kis költséggel skálázható
Felhasználók Adattudósok Üzleti elemzők, adatmérnökök, adattudósok
Használati példák Gépi tanulás, prediktív elemzés Alapvető jelentéskészítés, BI, gépi tanulás, prediktív elemzés

Mi az az adattó-architektúra?

Az adattó alapvetően egy tárház, amely nem rendelkezik saját architektúrakészlettel. Ahhoz, hogy a lehető legtöbbet hozhassa ki képességeiből, számos olyan eszközt, technológiát és számítási motort igényel, amelyek segítenek optimalizálni az adatok integrációját, tárolását és feldolgozását. Ezek az eszközök egy egységesen rétegzett architektúrát hoznak létre, amelyet a big data és az adattó tetején futtatnak. Ez az architektúra egy adattóház működési struktúráját is alkothatja. Minden szervezet saját egyedi konfigurációval rendelkezik, de a legtöbb adattótárház-architektúra a következőket tartalmazza:

  • Erőforrás-kezelés és -vezénylés. Az erőforrás-kezelő lehetővé teszi, hogy az adattó folyamatosan végrehajtsa a feladatokat a megfelelő mennyiségű adat, erőforrás és számítási teljesítmény megfelelő helyekre való kiosztásával.

  • Összekötők a könnyű hozzáférés érdekében. Számos munkafolyamat lehetővé teszi, hogy a felhasználók egyszerűen elérhessék - és megoszthassák - a szükséges adatokat abban az formában, amelyben szükségük van rájuk.

  • Megbízható elemzések. A jó elemzési szolgáltatásnak gyorsnak, méretezhetőnek és elosztottnak kell lennie. Emellett számos különböző számításifeladat-kategóriát kell támogatnia több nyelven.

  • Adatok besorolása. Az adatok profilkészítése, katalogizálása és archiválása segít a szervezeteknek nyomon követni az adatok tartalmát, minőségét, helyét és előzményeit.

  • Kinyerési, betöltési, átalakítási (ELT) folyamatok. Az ELT azokat a folyamatokat jelenti, amelyek során az adatokat több forrásból nyerik ki, majd betöltik az adattó nyers zónájába, majd kinyerés után megtisztítják és átalakítják, hogy az alkalmazások azonnal használhassák azokat.

  • Biztonság és támogatás. Az olyan adatvédelmi eszközök, mint a maszkolás, a naplózás, a titkosítás és a hozzáférés-figyelés gondoskodnak arról, hogy az adatok biztonságban legyenek és bizalmasan kezelhetők maradjanak.

  • Irányítás és stratégia. Ahhoz, hogy az adattó platform a lehető leggördülékenyebben működjön, a felhasználókat ki kell oktatni az architekturális konfigurációról, valamint az adat- és műveletkezelés ajánlott eljárásairól.

Gyakori kérdések

  • Az adattó egy központi adattár, amely nagy mennyiségű adat betöltését, tárolását és feldolgozását teszi lehetővé eredeti formájában. Minden adattípust képes kezelni, amely aztán big data elemzésre, gépi tanulásra és az intelligens műveletek más formáira szolgál.

    További információ az adattavakról

  • A szervezetek számos iparágban, többek között a kiskereskedelemben, a pénzügyben és a szórakoztatóiparban is használják a Data Lake platformokat az adatok tárolására, az elemzések gyűjtésére és a szolgáltatásaik általános minőségének javítására. A befektetési cégek például adattavakkal gyűjtik és dolgozzák fel a piacra kerülési adatokat, így hatékonyabban kezelhetik a portfóliókockázatokat.

  • Az adattavak mindenféle nyers adatot tárolnak, amelyeket az adattudósok aztán számos projekthez felhasználhatnak. Az adattárházak megtisztított és feldolgozott adatokat tárolnak, amelyek felhasználhatók elemzési vagy üzemeltetési jelentések készítésére, valamint adott BI-használati esetekre.

    Az adattavak és az adattárházak közötti különbségek felfedezése

  • Az adattótárház egy adattó és egy adattárház elemeit kombinálva rugalmas, teljes körű megoldást alkot adatelemzési és üzleti intelligenciára.

    További információ az adattótárházakról

  • Abszolút. A nagyobb szervezetek minden iparágban az adattavakban tárolt nagy mennyiségű adatra támaszkodnak az intelligens műveletekhez, az elemzésekhez és a növekedéshez.

    Az adattavak előnyeinek megismerése

  • A nagy mennyiségű adat, köztük a nyers és a strukturálatlan adatok kezelése nehézkes lehet, ami szűk keresztmetszetekhez, adatsérüléshez, minőség-ellenőrzési problémákhoz és teljesítményproblémákhoz vezethet. Ezért fontos, hogy az adattó platform zökkenőmentes futtatása érdekében tartsa fenn a megfelelő irányítási és felügyeleti eljárásokat.

  • Az adattó-architektúra olyan eszközök és technológiák konkrét konfigurációjára utal, amelyek segítenek az adatok adattóból való integrált, hozzáférhető, rendszerezett és biztonságos megőrzésében.

    Az adattó-architektúra ajánlott eljárásainak megismerése

Ingyenes fiók

Próbálja ki az Azure felhőalapú számítási szolgáltatásait akár 30 napig ingyenesen.

Használatalapú fizetés

Az első lépéseket használatalapú fizetéses díjszabással teheti meg. Nincs előzetes kötelezettségvállalás – bármikor lemondható.