Mi az az adattárház?
Először meg kell határozni, hogy mi az adattárház, és miért érdemes használni a szervezetekben.
Az adattárház egy olyan központosított adattár, amely strukturált adatokat (adatbázistáblákat, Excel-lapokat) és részben strukturált adatokat (XML-fájlokat, weblapokat) tárol jelentéskészítés és elemzés céljából. Az adatok különböző forrásokból, például pénztári rendszerekből, üzleti alkalmazásokból és relációs adatbázisokrelációs adatbázisokból származnak, és általában, még mielőtt elérnék az adattárházat, megtisztítják és szabványosítják őket. Mivel az adattárházak nagy mennyiségű információ tárolására képesek, a felhasználók számára egyszerű hozzáférést biztosítanak számos olyan előzményadathoz, amely adatbányászathoz, adatvizualizációhoz és az üzletiintelligencia-jelentések más formáihoz használható.
Az adattárház előnyei
A megbízható adatok segítségével, különösen, ha időben összesítik őket, a felhasználók intelligensebb és megalapozottabb döntéseket hozhatnak a szervezet működtetésének módjáról – ezt pedig az adattárházak teszik lehetővé. A nagyvállalati adattárház-kezelés számtalan előnnyel jár, amelyek közül a leghatásosabbak közé tartoznak az alábbiak:
-
Több forrásból származó adatok összevonása egyetlen hiteles forrásba
-
Hosszú távú, hónapokra és évekre kiterjedő előzményadatok tárolása és elemzése
-
Az adatok tisztítása és átalakítása úgy, hogy pontosak, konzisztensek és egységesek, a struktúrájukat és a formájukat tekintve pedig szabványosak legyenek
-
A lekérdezési idők csökkentése az adatgyűjtés és az elemzés feldolgozása során, ami javítja a rendszerek általános teljesítményét
-
Az adatok hatékony betöltése anélkül, hogy foglalkozni kellene az üzembe helyezés vagy az infrastruktúra költségeivel
-
Az adatok védelme úgy, hogy privátak, védettek és biztonságban legyenek
-
Az adatok elemzésre való előkészítése adatbányászaton, vizualizációs eszközökön és a fejlett elemzések más formáin keresztül
Az adattárház és az adattó közötti különbségek
Egyértelmű, hogy az adattárházak minden szervezet esetében nélkülözhetetlenek az elemzési műveletekhez. De mi a különbség az adattárházak és a más típusú adattárak, például az adattavak között? És mikor érdemes az egyiket használni a másik helyett?
Az adattárakhoz hasonlóan az adattárházak és az adattavak is adatok tárolására és feldolgozására szolgálnak. Habár úgy tűnhet, hogy ugyanazokat a funkciókat kínálják, mindegyik saját egyedi használati esetben használható. A szervezetek ezért általában mindkét rendszert beépítik egy olyan teljes körű megoldás kialakításához, amely sokféle célt képes kezelni.
Az adattárházak természetüknél fogva relációsak. Ez azt jelenti, hogy az adatok struktúráját vagy sémáját válogatott, összehangolt és az SQL-lekérdezési műveletekhez optimalizált, előre meghatározott üzleti és termékkövetelmények határozzák meg. Ennek eredményeképpen az adattárházak a legjobban azoknak az adatoknak a tárolására használhatók, amelyek kezelése egy adott célt (például BI-elemzéshez való adatbányászatot vagy egy már azonosított üzleti használati eset forrásként való felhasználását) szem előtt tartva történt.
Az adattavak az adattárházakhoz hasonlóan strukturált és részben strukturált adatokat tartalmaznak. Ugyanakkor a különböző nem relációs forrásokból, például mobilalkalmazásokból, IoT-eszközökből, közösségi médiából vagy streamelésből származó nyers és feldolgozatlan adatok tárolására is képesek. Ennek az az oka, hogy az adattavak struktúrája vagy sémája mindaddig nincs definiálva, amíg meg nem történik az adatok beolvasása. Rugalmas, skálázható természetük miatt az adattavakat gyakran használják az adatelemzés intelligens formáinak (például gépi tanulás) végrehajtására.
Adattó | Adattárház | |
---|---|---|
Típus | Strukturált, részben strukturált és strukturálatlan | Strukturált |
Séma | Séma olvasáskor | Séma íráskor |
Formátum | Nyers, szűretlen | Feldolgozott, megvizsgált |
Források | Big data, IoT, közösségi média, adatok streamelése | Alkalmazás, üzleti, tranzakciós adatok, kötegelt jelentéskészítés |
Skálázhatóság | Könnyen, kis költséggel skálázható | Nehezen és költségesen skálázható |
Felhasználók | Adattudósok, adatmérnökök | Adattárház-szakemberek, üzleti elemzők |
Használati esetek | Gépi tanulás, prediktív elemzés, valós idejű elemzések | Alapvető jelentéskészítés, BI |
Adattárház-architektúra és -kialakítás
Most, hogy már tudja, miért és mikor érdemes adattárházat használnia, a kialakításukat megvizsgálva nézzük meg, hogyan működnek az adattárházak. Az adattárház több mint egyetlen, önállóan működő tároló. Inkább olyan, nagymértékben strukturált, gondosan megtervezett rendszerként határozható meg, amely több, az adatokkal – és egymással – különböző módokon interakcióba lépő szintből áll. Ezek a szintek jellemzően a következők:
Alsó szint
Az adatokat több forrásból töltik be, majd megtisztítják és átalakítják, hogy más alkalmazások felhasználják őket egy kinyerés, átalakítás és betöltés (ETL) nevű folyamatban. Az alsó szint egyben az adatok tárolásának és optimalizálásának helye is, ami gyorsabb lekérdezési időket és jobb teljesítményt eredményez.
Középső szint
Itt található az elemzési motor, más néven az online analitikus feldolgozási (OLAP-) kiszolgáló. Az OLAP-kiszolgálók nagy mennyiségű adatot érnek el az adattárházból nagy sebességgel, ami villámgyors eredményekhez vezet.
Felső szint
A felső szint az, ahol az előtérfelület vizuálisan megjeleníti a feldolgozott adatokat, amelyeket az elemzők elérhetnek és felhasználhatnak az összes jelentéskészítési és önkiszolgáló BI-igényük kielégítése érdekében.
Adattárház fejlesztése
Adattárházak tervezésekor és kialakításakor fontos figyelembe venni a szervezet céljait, a hosszú távú és az alkalmi célokat egyaránt beleértve, valamint az adatok természetét. Hány adatforrást integrál? Tervezi a munkafolyamatok automatizálását? Hogyan fogja feltárni és elemezni az adatokat? A kialakítás az igények összetettségétől függően változhat, a tipikus céges adatbázis-adattárházak azonban a következő összetevőkből állhatnak:
- Olyan adatforrások, amelyek operatív adatokat nyernek ki pénztári rendszerekből, üzleti alkalmazásokból és más relációs adatbázisokból
- Egy olyan előkészítési terület, ahol az adatok megtisztítása és az adattárház vagy a központi adattár számára való átalakítása történik
- Egy olyan adattárház vagy központosított adattár, amely feldolgozott operatív adatokat, metaadatokat, összegző adatokat és nyers adatokat tárol a könnyű felhasználói hozzáférés érdekében
- Olyan kiegészítő adatpiacok, amelyek adatokat fogadnak a központi adattárból, és részhalmazokban szolgáltatják őket a felhasználók kiválasztott csoportjainak
- Egy olyan tesztkörnyezet, amellyel az adattudósok védett környezetben tesztelhetik az új adatfeltárási módokat
- Az adattárház-kezelési eszközök, keretrendszerek és API-k széles választéka integráció, tárolás, teljesítménynövelés és elemzés céljára
Adattárházeszközök, -szoftverek és -erőforrások
Napjaink adatközpontú világában számos nagy szoftvervállalat kínál látszólag végtelen számú adattárházszoftvert, amelyek mindegyike saját használati esettel rendelkezik. Ijesztőnek tűnhet, de egy egységes, nagy teljesítményű megoldás kialakítása érdekében érdemes a megfelelő eszközöket és technológiákat használni. Ugyan minden szervezet más-más igényekkel rendelkezik, az alábbiakban felsorolt néhány alapvető adattárházterméket azonban mindenképpen érdemes közelebbről megvizsgálni:
Felhőbeli és hibrid felhőbeli adattárház-kezelés
Egy egységes, felhőalapú adattárház-megoldás, például az Azure Synapse AnalyticsAzure Synapse Analyticsgyorsabb és alacsonyabb költségű méretezést, számítást és tárolást tesz lehetővé a szervezetek számára.
Adatintegrációs eszközök
Az ETL-folyamatok lehetővé teszik, hogy a felhasználók munkafolyamatokat hozhassanak létre, ütemezhessenek és vezényelhessenek a forrásadatok automatikus integrálása, megtisztítása és szabványosítása érdekében.
Objektumtár
Az objektumtárolási megoldások nagy mennyiségű strukturált, részben strukturált és strukturálatlan adatot tárolhatnak, ami tökéletessé teszi őket a forrásadatok raktárba való betöltése előtti előkészítésére.
Adattárház-kezelési eszközök
Az elosztott tárolási megoldások nagy mennyiségű adatot tárolnak oszlopos tárolású relációs táblákban. Ez jelentősen csökkenti a költségeket, javítja a lekérdezési teljesítményt, és felgyorsítja az elemzési időt.
Teljesítménynövelő eszközök
Az alkalmazásai teljesítményének növelése érdekében érdemes lehet beépítenie az Apache Spark nevű, nyílt forráskódú, párhuzamos feldolgozást végző keretrendszert, amely támogatja a memórián belüli feldolgozást.
Erőforrások és számítási feladatok kezelése
Egy erőforrás-kezelő számítási teljesítményt oszt ki a számítási feladatokhoz, így az adatok ennek megfelelően tölthetők be, elemezhetők, kezelhetők és exportálhatók.
Adatmodellezés
Az adatmodellezés több adatforrást egyesít egyetlen szemantikai modellben, így strukturált, áttekinthető képet nyújt az adatokról.
Üzletiintelligencia-eszközök
Az üzleti elemzési eszközök irányítópultok, jelentések és más vizualizációs eszközök formájában segítenek a felhasználóknak az elemzések biztosításában.
Biztonsági és adatvédelmi funkciók
Az olyan biztonsági és megfelelőségi funkciók, mint amilyen például az adattitkosítás, a felhasználóhitelesítés és a hozzáférés-figyelés, gondoskodnak az adatok védelméről.
Mi történt az Azure SQL Data Warehouse szolgáltatással?
Az Azure SQL Data Warehouse szolgáltatással társított képességeket mostantól a dedikált SQL-készletnek nevezett Azure Synapse Analytics egyik funkciója biztosítja. A meglévő Azure SQL Data Warehouse-ügyfelek továbbra is futtathatják a meglévő Azure SQL Data Warehouse-beli számítási feladataikat az Azure Synapse Analytics dedikált SQL-készlet funkciójával anélkül, hogy bármilyen változáson mennének keresztül. Az ügyfelek ezenkívül megkezdhetik a meglévő adattárházadataik kezelését az Azure Synapse Analytics segítségével, hogy kihasználhassák az olyan fejlett elemzési funkciókat, mint amilyen például a kiszolgáló nélküli adattófeltárás és az integrált SQL- és Apache Spark™-motorok.
Gyakori kérdések
-
Az adattárház egy olyan központosított adattár, amely strukturált adatokat (adatbázistáblákat, Excel-lapokat) és részben strukturált adatokat (XML-fájlokat, weblapokat) tárol jelentéskészítés, elemzés és az üzleti intelligencia más formái céljából.
-
Az adattárházak használatának számos előnye van. Egy adattárház például több adatforrást egyesít egyetlen olyan hiteles forrásban, amelyet aztán a szervezetek felhasználhatnak a megalapozottabb üzleti és üzemeltetési döntések meghozatalához.
-
Az adattárházak olyan strukturált és részben strukturált adatokat tárolnak, amelyek adatbányászathoz, adatvizualizációhoz és más speciális BI-használati esetekhez használhatók fel forrásként. Az adattavak olyan, különböző típusú nyers adatokat tárolnak, amelyeket aztán az adattudósok különböző projektek forrásául használhatnak.
-
Az adattárházak általában több szintből állnak: az alsó szintből, ahol az adatok gyűjtése és tárolása történik; a középső szintből, ahol az adatok elemzése megy végbe; és a legfelső szintből, ahol az adatok megjelennek a felhasználók számára hozzáférés és elemzés céljából.
-
Az adattárház-infrastruktúra tervezésekor és fejlesztésekor fontos figyelembe venni az adatok jellegét és az átalakítás kívánt módját. A tipikus kiépítések gyakori elemei közé tartoznak az adatforrások, az előkészítési terület, maga az adattárház, az adatpiacok, a tesztkörnyezetek és a különböző integrációs eszközök.
-
Manapság számos nagyobb szoftvercég kínálatában megtalálható az adattárháztermékek széles köre.
-
Ezeket a képességeket mostantól a dedikált SQL-készletnek nevezett Azure Synapse Analytics egyik funkciója biztosítja. Az Azure SQL Data Warehouse meglévő ügyfelei továbbra is futtathatják itt a számítási feladataikat anélkül, hogy bármilyen változáson kellene keresztülmenniük.
További források
Ingyenes fiók
Próbálja ki az Azure felhőalapú számítási szolgáltatásait akár 30 napig ingyenesen.
Használatalapú fizetés
Az első lépéseket használatalapú fizetéses díjszabással teheti meg. Nincs előzetes kötelezettségvállalás – bármikor lemondható.