Mi az az adattó?
Megismerheti az adattavak és az adattárházak közötti különbséget. Megtudhatja, hogyan hozhat létre skálázható alapot az összes elemzéshez az Azure-ral.
Az adattó definíciója
Ez a bevezető útmutató az adattó számos előnyét és használati esetét ismerteti. Megtudhatja, mi az az adattó, miért fontos, és felfedezheti az adattavak és az adattárházak közötti különbséget. Először is definiáljuk az adattó kifejezést.
Az adattó egy központi adattár, amely nagy mennyiségű adat betöltését és tárolását teszi lehetővé eredeti formájában. Az adatok ezután feldolgozhatók és felhasználhatók számos elemzési igény alapjaként. A nyílt, méretezhető architektúra miatt az adattó bármilyen típusú adatot képes kezelni bármilyen forrásból, a strukturált (adatbázistábláktól, Excel-munkalapoktól) a félig strukturált (XML-fájlokig, weblapokig) és a strukturálatlan (képekig, hangfájlokig, tweetekig), mindezt a megbízhatóság feláldozása nélkül. Az adatfájlok tárolása jellemzően szakaszos zónákban történik (nyersen, tisztítva és összeválogatva), így a különböző típusú felhasználók az igényeiknek megfelelően használhatják az adatokat a különböző űrlapjaikon. Az adattavak alapvető adatkonzisztenciát biztosítanak különböző alkalmazásokhoz, a big data elemzés, gépi tanulása gépi tanulási, a prediktív elemzések és az intelligens műveletek egyéb formái számára.
Miért fontosak az adattavak a vállalkozások számára?
Napjaink nagy mértékben összekapcsolt, elemzésalapú világa nem lenne lehetséges az adattó-megoldások megjelenése nélkül. Ennek az az oka, hogy a szervezetek átfogó adattóplatformokra, például az Azure Data Lake-re támaszkodnak a nyers adatok konszolidált, integrált, biztonságos és hozzáférhető megőrzéséhez. Az Azure Data Lake Storage-hez hasonló méretezhető tárolóeszközök egyetlen központi helyen tárolhatják és védhetik az adatokat, így az optimális költségekkel kiküszöbölhetők a silók. Ez lefekteti a felhasználók számára a számítási feladatok számos kategóriájának, például a big data feldolgozásának, az SQL-lekérdezéseknek, a szövegbányászatnak, a streamelési elemzésnek és a gépi tanulásnak az alapját. Az adatok ezután a felsőbb rétegbeli adatvizualizációk és az alkalmi jelentéskészítési igények kielégítésére használhatók. A modern, teljes körű adatplatform, például az Azure Synapse Analytics az adattó körül elhelyezkedő big data architektúra teljes igényeit kielégíti.
Adattó-használati esetek
Egy jól felépítésű megoldással végtelen az innováció lehetősége. Íme néhány példa arra, hogyan használják a különböző iparágakban a szervezetek az adattó platformokat a növekedésük optimalizálására:
- Streaming média. Az előfizetés-alapú streamelési vállalatok adatokat gyűjtenek és dolgoznak fel az ügyfelek viselkedéséről, amelyeket felhasználhatnak a javaslati algoritmusuk javítására.
- Pénzügy. A befektetési cégek a valós időben gyűjtött és tárolt legfrissebb piaci adatokat használják a portfóliókockázatok hatékony kezeléséhez.
- Egészségügy. Az egészségügyi szervezetek big datára támaszkodnak a betegek ellátásának minőségének javítására. A kórházak hatalmas mennyiségű előzményadatot használnak a betegútvonalak egyszerűsítésére, ami jobb eredményeket és alacsonyabb ellátási költségeket eredményez.
- Omnichannel kereskedő. A kiskereskedők adattavakkal rögzítik és összesítik a különböző érintési pontokról érkező adatokat, beleértve a mobileszközökről, a közösségi hálózatokról, a csevegésről, a szájról-szájra terjedő és személyesen érkező adatokat.
- IoT. A hardverérzékelők hatalmas mennyiségű félig strukturált vagy strukturálatlan adatot generálnak a környező fizikai világról. Az adattavak egy központi adattárat biztosítanak az információk későbbi elemzéshez való használatához.
- Digitális ellátási lánc. Az adattavakkal a gyártók összevonják a különböző adattárházadatokat, beleértve az EDI-rendszereket, az XML-t és a JSON-eket.
- Értékesítés. Az adattudósok és az értékesítési mérnökök gyakran készítenek prediktív modelleket, amelyek segítenek meghatározni az ügyfelek viselkedését és csökkenteni az általános lemorzsolódást.
Az adattó és az adattárház közötti különbségek
Most már tudja, hogy mi az az adattó, miért fontos, és hogyan használják különböző szervezetekben. De mi a különbség az adattó és az adattárház között? És mikor érdemes az egyiket vagy a másikat használni?
Míg az adattavak és adattárházak hasonlóak abban, hogy az adatokat tárolják és dolgozzák fel, mindegyiknek saját szakterülete van, és így saját használati eseteik is. Ezért gyakori, hogy egy nagyvállalati szintű szervezet adattavat és adattárházat is belefoglal az elemzési ökoszisztémába. Mindkét adattár együttműködik, hogy biztonságos, teljes körű rendszert alakítson ki a tároláshoz, a feldolgozáshoz és a gyorsabb elemzési időhöz.
Az adattó különböző forrásokból - üzleti alkalmazások, mobilalkalmazások, IoT-eszközök, közösségi média vagy streamelés - származó relációs és nem relációs adatokat egyaránt rögzít anélkül, hogy az adatok szerkezetét vagy sémáját az adatolvasásig meg kellene határozni. A séma olvasáskor biztosítja, hogy bármilyen típusú adat tárolható nyers formában. Ennek eredményeképpen az adattavak sokféle adattípust tárolhatnak, a strukturálttól a félig strukturáltig, a strukturálatlanig, bármilyen méretben. Rugalmas és méretezhető természetük miatt nélkülözhetetlenek az adatelemzés összetett formáinak végrehajtásához különböző típusú számítási feldolgozási eszközökkel, például Apache Spark vagy Azure Machine Learning.
Ezzel szemben az adattárház relációs jellegű. A struktúrát vagy sémát olyan üzleti és termékkövetelmények modellezik vagy előre definiálják, amelyek össze vannak válogatva, megfelelnek és SQL-lekérdezési műveletekhez vannak optimalizálva. Míg az adattó minden struktúratípus adatait tárolja, beleértve a nyers és a feldolgozatlan adatokat is, az adattárházak egy meghatározott céllal kezelt és átalakított adatokat tárolnak, amelyeket aztán elemzési vagy üzemeltetési jelentések készítésére használhatnak. Ez ideálissá teszi az adattárházakat szabványosabb BI-elemzési módok létrehozásához, vagy egy már definiált üzleti használati eset kiszolgálásához.
Adattó | Adattárház | |
---|---|---|
Típus | Strukturált, részben strukturált és strukturálatlan | Strukturált |
Relációs, nem relációs | Relációs | |
Séma | Séma olvasáskor | Séma íráskor |
Formátum | Nyers, szűretlen | Feldolgozott, megvizsgált |
Források | Big data, IoT, közösségi média, adatok streamelése | Alkalmazás, üzleti, tranzakciós adatok, kötegelt jelentéskészítés |
Skálázhatóság | Könnyen, kis költséggel skálázható | Nehezen és költségesen skálázható |
Felhasználók | Adattudósok, adatmérnökök | Adattárház-szakemberek, üzleti elemzők |
Használati példák | Gépi tanulás, prediktív elemzés, valós idejű elemzések | Alapvető jelentéskészítés, BI |
Az adattó és az adattárház közötti különbségek
Most már tudja, mi a különbség az adattó és az adattárház között. De mi a különbség az adattó és az adattárház között? És szükség van mindkettőre?
Számos előnye ellenére a hagyományos adattó nem mentes a hátulütőktől. Mivel az adattavak sokféle forrásból származó adatot képesek kezelni, a minőség-ellenőrzéssel, az adatsérüléssel és a nem megfelelő particionálással kapcsolatos problémák léphetnek fel. A rosszul felügyelt adattó nem csupán az adatok integritását rontja, hanem szűk keresztmetszetekhez, lassú teljesítményhez és biztonsági kockázatokhoz is vezethet.
Itt jön a képbe az adattárház. Az adattárház egy nyílt szabványokon alapuló tárolási megoldás, amely természetében sokrétű. Képes kielégíteni a mély adatelemzést és -feldolgozást végző adatszakértők és mérnökök igényeit, valamint a hagyományos adattárház-szakemberek igényeit, akik üzleti intelligencia és jelentéskészítés céljából összeállítják és közzéteszik az adatokat. Az adattárház szépsége az, hogy minden számítási feladat zökkenőmentesen működhet az adattó felett, anélkül, hogy az adatokat egy másik, szerkezetileg előre definiált adatbázisba kellene duplikálni. Ez biztosítja, hogy mindenki a legfrissebb adatokon dolgozzon, miközben a redundanciákat is csökkenti.
Az adattótárházak úgy oldják meg a hagyományos adattavak kihívásait, hogy egy Delta Lake tárolási réteget adnak hozzá, közvetlenül a felhőbeli adattóhoz. A tárolási réteg egy rugalmas elemzési architektúrát biztosít, amely képes kezelni az ACID-tranzakciókat (atomitás, konzisztencia, elkülönítés és tartósság) az adatmegbízhatóság, a streamintegrációk és a fejlett funkciók, például az adatok verziószámozása és a sémakényszerítés érdekében. Ez számos elemzési tevékenységet tesz lehetővé a tavon anélkül, hogy veszélyeztetné az alapvető adatok konzisztenciáját. Bár a tóház szükségessége attól függ, hogy mennyire összetettek az Ön igényei, rugalmassága és tartománya miatt sok vállalati szervezet számára optimális megoldást jelent.
Adattó | Adattótárház | |
---|---|---|
Típus | Strukturált, részben strukturált és strukturálatlan | Strukturált, részben strukturált és strukturálatlan |
Relációs, nem relációs | Relációs, nem relációs | |
Séma | Séma olvasáskor | Séma olvasásra, séma írásra |
Formátum | Nyers, szűretlen, feldolgozott, válogatott | Nyers, szűretlen, feldolgozott, válogatott, delta-formátumú fájlok |
Források | Big data, IoT, közösségi média, adatok streamelése | Big data, IoT, közösségi média, streamelési adatok, alkalmazás, üzleti, tranzakciós adatok, kötegelt jelentéskészítés |
Skálázhatóság | Könnyen, kis költséggel skálázható | Könnyen, kis költséggel skálázható |
Felhasználók | Adattudósok | Üzleti elemzők, adatmérnökök, adattudósok |
Használati példák | Gépi tanulás, prediktív elemzés | Alapvető jelentéskészítés, BI, gépi tanulás, prediktív elemzés |
Mi az az adattó-architektúra?
Az adattó alapvetően egy tárház, amely nem rendelkezik saját architektúrakészlettel. Ahhoz, hogy a lehető legtöbbet hozhassa ki képességeiből, számos olyan eszközt, technológiát és számítási motort igényel, amelyek segítenek optimalizálni az adatok integrációját, tárolását és feldolgozását. Ezek az eszközök egy egységesen rétegzett architektúrát hoznak létre, amelyet a big data és az adattó tetején futtatnak. Ez az architektúra egy adattóház működési struktúráját is alkothatja. Minden szervezet saját egyedi konfigurációval rendelkezik, de a legtöbb adattótárház-architektúra a következőket tartalmazza:
- Erőforrás-kezelés és -vezénylés. Az erőforrás-kezelő lehetővé teszi, hogy az adattó folyamatosan végrehajtsa a feladatokat a megfelelő mennyiségű adat, erőforrás és számítási teljesítmény megfelelő helyekre való kiosztásával.
- Összekötők a könnyű hozzáférés érdekében. Számos munkafolyamat lehetővé teszi, hogy a felhasználók egyszerűen elérhessék - és megoszthassák - a szükséges adatokat abban az formában, amelyben szükségük van rájuk.
- Megbízható elemzések. A jó elemzési szolgáltatásnak gyorsnak, méretezhetőnek és elosztottnak kell lennie. Emellett számos különböző számításifeladat-kategóriát kell támogatnia több nyelven.
- Adatok besorolása. Az adatok profilkészítése, katalogizálása és archiválása segít a szervezeteknek nyomon követni az adatok tartalmát, minőségét, helyét és előzményeit.
- Kinyerési, betöltési, átalakítási (ELT) folyamatok. Az ELT azokat a folyamatokat jelenti, amelyek során az adatokat több forrásból nyerik ki, majd betöltik az adattó nyers zónájába, majd kinyerés után megtisztítják és átalakítják, hogy az alkalmazások azonnal használhassák azokat.
- Biztonság és támogatás. Az olyan adatvédelmi eszközök, mint a maszkolás, a naplózás, a titkosítás és a hozzáférés-figyelés gondoskodnak arról, hogy az adatok biztonságban legyenek és bizalmasan kezelhetők maradjanak.
- Irányítás és stratégia. Ahhoz, hogy az adattó platform a lehető leggördülékenyebben működjön, a felhasználókat ki kell oktatni az architekturális konfigurációról, valamint az adat- és műveletkezelés ajánlott eljárásairól.
További források
Gyakori kérdések
-
Az adattó egy központi adattár, amely nagy mennyiségű adat betöltését, tárolását és feldolgozását teszi lehetővé eredeti formájában. Minden adattípust képes kezelni, amely aztán big data elemzésre, gépi tanulásra és az intelligens műveletek más formáira szolgál.
-
A szervezetek számos iparágban, többek között a kiskereskedelemben, a pénzügyben és a szórakoztatóiparban is használják a Data Lake platformokat az adatok tárolására, az elemzések gyűjtésére és a szolgáltatásaik általános minőségének javítására. A befektetési cégek például adattavakkal gyűjtik és dolgozzák fel a piacra kerülési adatokat, így hatékonyabban kezelhetik a portfóliókockázatokat.
-
Az adattavak mindenféle nyers adatot tárolnak, amelyeket az adattudósok aztán számos projekthez felhasználhatnak. Az adattárházak megtisztított és feldolgozott adatokat tárolnak, amelyek felhasználhatók elemzési vagy üzemeltetési jelentések készítésére, valamint adott BI-használati esetekre.
Az adattavak és az adattárházak közötti különbségek felfedezése
-
Az adattótárház egy adattó és egy adattárház elemeit kombinálva rugalmas, teljes körű megoldást alkot adatelemzési és üzleti intelligenciára.
-
Abszolút. A nagyobb szervezetek minden iparágban az adattavakban tárolt nagy mennyiségű adatra támaszkodnak az intelligens műveletekhez, az elemzésekhez és a növekedéshez.
-
A nagy mennyiségű adat, köztük a nyers és a strukturálatlan adatok kezelése nehézkes lehet, ami szűk keresztmetszetekhez, adatsérüléshez, minőség-ellenőrzési problémákhoz és teljesítményproblémákhoz vezethet. Ezért fontos, hogy az adattó platform zökkenőmentes futtatása érdekében tartsa fenn a megfelelő irányítási és felügyeleti eljárásokat.
-
Az adattó-architektúra olyan eszközök és technológiák konkrét konfigurációjára utal, amelyek segítenek az adatok adattóból való integrált, hozzáférhető, rendszerezett és biztonságos megőrzésében.
Ingyenes fiók
Próbálja ki az Azure felhőalapú számítási szolgáltatásait akár 30 napig ingyenesen.
Használatalapú fizetés
Az első lépéseket használatalapú fizetéses díjszabással teheti meg. Nincs előzetes kötelezettségvállalás – bármikor lemondható.