Trace Id is missing
Ugrás a tartalomra
Négy személy, akik szemtől szemben beszélgetnek egy laptopon egy bemutatót nézve

Mi az az adattárház?

Megtudhatja, mi az az adattárház, milyen előnyökkel jár a használata, milyen ajánlott eljárásokat érdemes figyelembe venni a tervezési fázisban, és mely eszközöket érdemes beépíteni, amikor végül eljön a fejlesztés ideje.

Mi az az adattárház?

Először meg kell határozni, hogy mi az adattárház, és miért érdemes használni a szervezetekben.

Az adattárház egy olyan központosított adattár, amely strukturált adatokat (adatbázistáblákat, Excel-lapokat) és részben strukturált adatokat (XML-fájlokat, weblapokat) tárol jelentéskészítés és elemzés céljából. Az adatok különböző forrásokból, például pénztári rendszerekből, üzleti alkalmazásokból és relációs adatbázisokrelációs adatbázisokból származnak, és általában, még mielőtt elérnék az adattárházat, megtisztítják és szabványosítják őket. Mivel az adattárházak nagy mennyiségű információ tárolására képesek, a felhasználók számára egyszerű hozzáférést biztosítanak számos olyan előzményadathoz, amely adatbányászathoz, adatvizualizációhoz és az üzletiintelligencia-jelentések más formáihoz használható.

Két személy egy táblázatban ellenőrzi a jelentésadatokat

Az adattárház előnyei

A megbízható adatok segítségével, különösen, ha időben összesítik őket, a felhasználók intelligensebb és megalapozottabb döntéseket hozhatnak a szervezet működtetésének módjáról – ezt pedig az adattárházak teszik lehetővé. A nagyvállalati adattárház-kezelés számtalan előnnyel jár, amelyek közül a leghatásosabbak közé tartoznak az alábbiak:

Az adattárház és az adattó közötti különbségek

Egyértelmű, hogy az adattárházak minden szervezet esetében nélkülözhetetlenek az elemzési műveletekhez. De mi a különbség az adattárházak és a más típusú adattárak, például az adattavak között? És mikor érdemes az egyiket használni a másik helyett?

Az adattárakhoz hasonlóan az adattárházak és az adattavak is adatok tárolására és feldolgozására szolgálnak. Habár úgy tűnhet, hogy ugyanazokat a funkciókat kínálják, mindegyik saját egyedi használati esetben használható. A szervezetek ezért általában mindkét rendszert beépítik egy olyan teljes körű megoldás kialakításához, amely sokféle célt képes kezelni.

Az adattárházak természetüknél fogva relációsak. Ez azt jelenti, hogy az adatok struktúráját vagy sémáját válogatott, összehangolt és az SQL-lekérdezési műveletekhez optimalizált, előre meghatározott üzleti és termékkövetelmények határozzák meg. Ennek eredményeképpen az adattárházak a legjobban azoknak az adatoknak a tárolására használhatók, amelyek kezelése egy adott célt (például BI-elemzéshez való adatbányászatot vagy egy már azonosított üzleti használati eset forrásként való felhasználását) szem előtt tartva történt.

Az adattavak az adattárházakhoz hasonlóan strukturált és részben strukturált adatokat tartalmaznak. Ugyanakkor a különböző nem relációs forrásokból, például mobilalkalmazásokból, IoT-eszközökből, közösségi médiából vagy streamelésből származó nyers és feldolgozatlan adatok tárolására is képesek. Ennek az az oka, hogy az adattavak struktúrája vagy sémája mindaddig nincs definiálva, amíg meg nem történik az adatok beolvasása. Rugalmas, skálázható természetük miatt az adattavakat gyakran használják az adatelemzés intelligens formáinak (például gépi tanulás) végrehajtására.

szervezeti szintű támogatási csomag
Adattó Adattárház
Típus

Strukturált, részben strukturált és strukturálatlan
Relációs, nem relációs

Strukturált
Relációs

Séma

Séma olvasáskor

Séma íráskor

Formátum

Nyers, szűretlen

Feldolgozott, megvizsgált

Források

Big data, IoT, közösségi média, adatok streamelése

Alkalmazás, üzleti, tranzakciós adatok, kötegelt jelentéskészítés

Skálázhatóság

Könnyen, kis költséggel skálázható

Nehezen és költségesen skálázható

Felhasználók

Adattudósok, adatmérnökök

Adattárház-szakemberek, üzleti elemzők

Használati esetek

Gépi tanulás, prediktív elemzés, valós idejű elemzések

Alapvető jelentéskészítés, BI

Egy személy egy széken ülve egy asztali eszközön dolgozik

Adattárház-architektúra és -kialakítás

Most, hogy már tudja, miért és mikor érdemes adattárházat használnia, a kialakításukat megvizsgálva nézzük meg, hogyan működnek az adattárházak. Az adattárház több mint egyetlen, önállóan működő tároló. Inkább olyan, nagymértékben strukturált, gondosan megtervezett rendszerként határozható meg, amely több, az adatokkal – és egymással – különböző módokon interakcióba lépő szintből áll. Ezek a szintek jellemzően a következők:

Alsó szint

Az adatokat több forrásból töltik be, majd megtisztítják és átalakítják, hogy más alkalmazások felhasználják őket egy kinyerés, átalakítás és betöltés (ETL) nevű folyamatban. Az alsó szint egyben az adatok tárolásának és optimalizálásának helye is, ami gyorsabb lekérdezési időket és jobb teljesítményt eredményez.

Középső szint

Itt található az elemzési motor, más néven az online analitikus feldolgozási (OLAP-) kiszolgáló. Az OLAP-kiszolgálók nagy mennyiségű adatot érnek el az adattárházból nagy sebességgel, ami villámgyors eredményekhez vezet.

Felső szint

A felső szint az, ahol az előtérfelület vizuálisan megjeleníti a feldolgozott adatokat, amelyeket az elemzők elérhetnek és felhasználhatnak az összes jelentéskészítési és önkiszolgáló BI-igényük kielégítése érdekében.

Adattárház fejlesztése

Adattárházak tervezésekor és kialakításakor fontos figyelembe venni a szervezet céljait, a hosszú távú és az alkalmi célokat egyaránt beleértve, valamint az adatok természetét. Hány adatforrást integrál? Tervezi a munkafolyamatok automatizálását? Hogyan fogja feltárni és elemezni az adatokat? A kialakítás az igények összetettségétől függően változhat, a tipikus céges adatbázis-adattárházak azonban a következő összetevőkből állhatnak:

  1. Olyan adatforrások, amelyek operatív adatokat nyernek ki pénztári rendszerekből, üzleti alkalmazásokból és más relációs adatbázisokból
  2. Egy olyan előkészítési terület, ahol az adatok megtisztítása és az adattárház vagy a központi adattár számára való átalakítása történik
  3. Egy olyan adattárház vagy központosított adattár, amely feldolgozott operatív adatokat, metaadatokat, összegző adatokat és nyers adatokat tárol a könnyű felhasználói hozzáférés érdekében
  4. Olyan kiegészítő adatpiacok, amelyek adatokat fogadnak a központi adattárból, és részhalmazokban szolgáltatják őket a felhasználók kiválasztott csoportjainak
  5. Egy olyan tesztkörnyezet, amellyel az adattudósok védett környezetben tesztelhetik az új adatfeltárási módokat
  6. Az adattárház-kezelési eszközök, keretrendszerek és API-k széles választéka integráció, tárolás, teljesítménynövelés és elemzés céljára
Egy laptopon diagramokat, illetve két monitoron adatjelentéseket elemző személy
Laptopképernyő megnyitott diagramokkal

Adattárházeszközök, -szoftverek és -erőforrások

Napjaink adatközpontú világában számos nagy szoftvervállalat kínál látszólag végtelen számú adattárházszoftvert, amelyek mindegyike saját használati esettel rendelkezik. Ijesztőnek tűnhet, de egy egységes, nagy teljesítményű megoldás kialakítása érdekében érdemes a megfelelő eszközöket és technológiákat használni. Ugyan minden szervezet más-más igényekkel rendelkezik, az alábbiakban felsorolt néhány alapvető adattárházterméket azonban mindenképpen érdemes közelebbről megvizsgálni:

Felhőbeli és hibrid felhőbeli adattárház-kezelés

Egy egységes, felhőalapú adattárház-megoldás, például az Azure Synapse AnalyticsAzure Synapse Analyticsgyorsabb és alacsonyabb költségű méretezést, számítást és tárolást tesz lehetővé a szervezetek számára.

Adatintegrációs eszközök

Az ETL-folyamatok lehetővé teszik, hogy a felhasználók munkafolyamatokat hozhassanak létre, ütemezhessenek és vezényelhessenek a forrásadatok automatikus integrálása, megtisztítása és szabványosítása érdekében.

Objektumtár

Az objektumtárolási megoldások nagy mennyiségű strukturált, részben strukturált és strukturálatlan adatot tárolhatnak, ami tökéletessé teszi őket a forrásadatok raktárba való betöltése előtti előkészítésére.

Adattárház-kezelési eszközök

Az elosztott tárolási megoldások nagy mennyiségű adatot tárolnak oszlopos tárolású relációs táblákban. Ez jelentősen csökkenti a költségeket, javítja a lekérdezési teljesítményt, és felgyorsítja az elemzési időt.

Teljesítménynövelő eszközök

Az alkalmazásai teljesítményének növelése érdekében érdemes lehet beépítenie az Apache Spark nevű, nyílt forráskódú, párhuzamos feldolgozást végző keretrendszert, amely támogatja a memórián belüli feldolgozást.

Erőforrások és számítási feladatok kezelése

Egy erőforrás-kezelő számítási teljesítményt oszt ki a számítási feladatokhoz, így az adatok ennek megfelelően tölthetők be, elemezhetők, kezelhetők és exportálhatók.

Adatmodellezés

Az adatmodellezés több adatforrást egyesít egyetlen szemantikai modellben, így strukturált, áttekinthető képet nyújt az adatokról.

Üzletiintelligencia-eszközök

Az üzleti elemzési eszközök irányítópultok, jelentések és más vizualizációs eszközök formájában segítenek a felhasználóknak az elemzések biztosításában.

Biztonsági és adatvédelmi funkciók

Az olyan biztonsági és megfelelőségi funkciók, mint amilyen például az adattitkosítás, a felhasználóhitelesítés és a hozzáférés-figyelés, gondoskodnak az adatok védelméről.

Két személy beszélget, a jobb oldali egy laptopot tart

Mi történt az Azure SQL Data Warehouse szolgáltatással?

Az Azure SQL Data Warehouse szolgáltatással társított képességeket mostantól a dedikált SQL-készletnek nevezett Azure Synapse Analytics egyik funkciója biztosítja. A meglévő Azure SQL Data Warehouse-ügyfelek továbbra is futtathatják a meglévő Azure SQL Data Warehouse-beli számítási feladataikat az Azure Synapse Analytics dedikált SQL-készlet funkciójával anélkül, hogy bármilyen változáson mennének keresztül. Az ügyfelek ezenkívül megkezdhetik a meglévő adattárházadataik kezelését az Azure Synapse Analytics segítségével, hogy kihasználhassák az olyan fejlett elemzési funkciókat, mint amilyen például a kiszolgáló nélküli adattófeltárás és az integrált SQL- és Apache Spark™-motorok.

Gyakori kérdések

  • Az adattárház egy olyan központosított adattár, amely strukturált adatokat (adatbázistáblákat, Excel-lapokat) és részben strukturált adatokat (XML-fájlokat, weblapokat) tárol jelentéskészítés, elemzés és az üzleti intelligencia más formái céljából.

  • Az adattárházak használatának számos előnye van. Egy adattárház például több adatforrást egyesít egyetlen olyan hiteles forrásban, amelyet aztán a szervezetek felhasználhatnak a megalapozottabb üzleti és üzemeltetési döntések meghozatalához.

  • Az adattárházak olyan strukturált és részben strukturált adatokat tárolnak, amelyek adatbányászathoz, adatvizualizációhoz és más speciális BI-használati esetekhez használhatók fel forrásként. Az adattavak olyan, különböző típusú nyers adatokat tárolnak, amelyeket aztán az adattudósok különböző projektek forrásául használhatnak.

  • Az adattárházak általában több szintből állnak: az alsó szintből, ahol az adatok gyűjtése és tárolása történik; a középső szintből, ahol az adatok elemzése megy végbe; és a legfelső szintből, ahol az adatok megjelennek a felhasználók számára hozzáférés és elemzés céljából.

  • Az adattárház-infrastruktúra tervezésekor és fejlesztésekor fontos figyelembe venni az adatok jellegét és az átalakítás kívánt módját. A tipikus kiépítések gyakori elemei közé tartoznak az adatforrások, az előkészítési terület, maga az adattárház, az adatpiacok, a tesztkörnyezetek és a különböző integrációs eszközök.

  • Manapság számos nagyobb szoftvercég kínálatában megtalálható az adattárháztermékek széles köre.

  • Ezeket a képességeket mostantól a dedikált SQL-készletnek nevezett Azure Synapse Analytics egyik funkciója biztosítja. Az Azure SQL Data Warehouse meglévő ügyfelei továbbra is futtathatják itt a számítási feladataikat anélkül, hogy bármilyen változáson kellene keresztülmenniük.

Ingyenes fiók

Próbálja ki az Azure felhőalapú számítási szolgáltatásait akár 30 napig ingyenesen.

Használatalapú fizetés

Az első lépéseket használatalapú fizetéses díjszabással teheti meg. Nincs előzetes kötelezettségvállalás – bármikor lemondható.