Ugrás a tartalomra

Mi az az adattárház?

Megtudhatja, mi az adattárház, milyen előnyökkel jár annak használata, milyen legjobb gyakorlatokat kell figyelembe vennie a tervezési fázisban, és milyen eszközöket kell beépítenie, amikor eljön a létrehozás ideje.

Mi az az adattárház?

Először is, határozzuk meg, mi az adattárház, és miért érdemes használnia a szervezetében.

Az adattárház egy központosított adattár, amely strukturált adatokat (adatbázistáblákat, Excel-lapokat) és részben strukturált adatokat (XML-fájlokat, weblapokat) tárol jelentéskészítés és elemzés céljából. Az adatok többféle forrásból, például értékesítési rendszerekből, üzleti alkalmazásokból és relációs adatbázisokból származnak, és általában megtisztítják és szabványosítják azokat, mielőtt beérkeznek az adattárházba. Mivel az adattárház nagy mennyiségű információt tárolhat, a felhasználók számára egyszerű hozzáférést biztosít számos előzményadathoz, amely adatbányászathoz, adatvizualizációhoz és az üzletiintelligencia-jelentéskészítés más formáihoz használható.

Az adattárházak előnyei

A megbízható adatok, különösen, ha az idő során összesítettek, segítik a felhasználókat segítenek a felhasználóknak intelligensebb és megalapozottabb döntéseket hozni a szervezetük működtetésével kapcsolatban – amit az adattárházak tesznek lehetővé. A vállalati adattárházak számtalan előnnyel járnak, de íme néhány a legfontosabbak közül:

  • Több forrásból származó adatok összevonása egyetlen hiteles forrásba
  • Hosszú távú, hónapokra és évekre kiterjedő előzményadatok tárolása és elemzése
  • Az adatok tisztítása és átalakítása, hogy azok pontosak, konzisztensek és egységesek legyenek, szabványos struktúrában és formátumban
  • A lekérdezési idő csökkentése az adatgyűjtés és az elemzés feldolgozása során, ami javítja a rendszerek általános teljesítményét
  • Az adatok hatékony betöltése az üzembe helyezés vagy az infrastruktúra költségeinek kezelése nélkül
  • Az adatok védelme, hogy azok privátak, védettek és biztonságosak legyenek
  • Adatok előkészítése elemzéshez adatbányászattal, vizualizációs eszközökkel és a fejlett elemzések más formáival

Adattavak és adattárházak

Egyértelmű, hogy az adattárházak nélkülözhetetlenek minden szervezet elemzési műveleteihez. De mi a különbség az adattárházak és más típusú adattárak, például egy adattó között? És mikor melyiket érdemes választani?

Az adattárházak és adattavak egyaránt adattárakként tárolják és dolgozzák fel az adatokat. Bár látszólag ugyanazt a funkcionalitást kínálják, mindkettőnek megvannak a maga saját használati esetei. Éppen ezért a szervezetek általában mindkét rendszert integrálják egy teljes körű megoldás kialakításához, amely sokféle célt képes kezelni.

Az adattárház relációs jellegű. Ez azt jelenti, hogy az adatok struktúráját vagy sémáját előre definiált, az SQL-lekérdezési műveletekhez összeválogatott, megfelelő és optimalizált üzleti és termékkövetelmények határozzák meg. Ennek eredményeképpen az adattárházak a legjobban egy adott céllal – például adatbányászat BI-elemzés, vagy egy már meghatározott üzleti használati eset forrása – kezelt adatok tárolására használhatók.

Az adattárházakhoz hasonlóan az adattavak is strukturált és részben strukturált adatokat tárolnak. Ugyanakkor képesek a különböző nem relációs forrásokból, például mobilalkalmazásokból, IoT-eszközökből, közösségi médiából vagy streamelésből származó nyers és feldolgozatlan adatok kezelésére is. Ennek oka, hogy az adattó struktúrája vagy sémája nincs definiálva az adatok beolvasásáig. Rugalmas, skálázható természetük miatt az adattavakat gyakran használják az adatelemzés intelligens formáihoz, például gépi tanuláshoz.

Nincs Data Lake Adattárház
Típus Strukturált, félig strukturált, strukturálatlan
Relációs, nem relációs
Strukturált
Relációs
Séma Sémára alkalmazás olvasáskor Sémára alkalmazás íráskor
Formátum Nyers, szűretlen Feldolgozva, ellenőrizve
Források Big data, IoT, közösségi média, streamelési adatok Alkalmazás, üzleti, tranzakciós adatok, kötegelt jelentéskészítés
Skálázhatóság Alacsony költséggel könnyen méretezhető Nehéz és költséges skálázás
Felhasználók Adattudósok, adatmérnökök Adattárház-szakemberek, üzleti elemzők
Használati példák Gépi tanulás, prediktív elemzés, valós idejű elemzés Alapvető jelentéskészítés, BI

Az adattárházak architektúrája és kialakítása

Most, hogy már tudja, miért és mikor érdemes adattárházat használnia, vessünk egy pillantást az adattárház kialakítására. Az adattárház több, mint egyetlen önállóan működő siló. Egy nagymértékben strukturált, gondosan megtervezett rendszer, amely több, az adataival – és egymással – különböző módokon kommunikáló szintből áll. Ezek általában a következők:

Az alsó szint

Az adatokat több forrásból töltik be, majd megtisztítják és átalakítják, hogy más alkalmazások felhasználják őket egy kinyerés, átalakítás és beolvasás (ETL) nevű folyamatban. Az alsó szint az adatok tárolásának és optimalizálásának helye is, ami gyorsabb lekérdezési időket és jobb teljesítményt eredményez.

Középső szint

Itt található az elemzési motort, más néven az online analitikai feldolgozási (OLAP-) kiszolgáló. Az OLAP-kiszolgálók nagy sebességgel férnek hozzá az adattárházból származó nagy mennyiségű adathoz, ami villámgyors eredményhez vezet.

Felső szint

A felső réteg az, ahol a kezelőfelület vizuálisan megjeleníti az elemzők számára az összes jelentéskészítési és önkiszolgáló üzletiintelligencia-igényükhöz elérhető és felhasználható feldolgozott adatokat.

Adattárház létrehozása

Az adattárházak tervezésekor és létrehozásakor fontos figyelembe venni mind a hosszú távú, mind az eseti szervezeti célokat, valamint az adatok természetét. Hány adatforrást integrál? Tervezi a munkafolyamatok automatizálását? Hogyan fogja feltárni és elemezni az adatokat? A kiépítés az igények összetettségétől függően változhat, de egy tipikus vállalati adattárház a következő összetevőkből állhat:

  1. Adatforrások, amelyek operatív adatokat nyernek ki az értékesítési pontokon működő rendszerekből, az üzleti alkalmazásokból és más relációs adatbázisokból
  2. Előkészítési adatbázis az adatok megtisztítására és átalakítására az adattárház vagy központosított adattár számára
  3. Adattárház vagy a feldolgozott operatív adatokat, metaadatokat, összegző adatokat és nyers adatokat tároló központi adattár a könnyű felhasználói hozzáférés érdekében
  4. Adatpiacok hozzáadása, amelyek adatokat fogadnak a központi adattárból, és részhalmazokban szolgáltatják azokat a kiválasztott felhasználói csoportoknak
  5. Tesztkörnyezet, amelyben az adatelemzők egy védett környezetben tesztelhetik az adatfeltárás új formáit
  6. Adattárház-eszközök, keretrendszerek és API-k széles választéka az integrációhoz, a tároláshoz, a teljesítménynöveléshez és az elemzéshez

Adattárház-eszközök, -szoftverek és -erőforrások

A mai adatközpontú világ az adattárházi szoftverek végtelennek tűnő választékát kínálja számos nagy szoftvercégtől, meghatározott használati esetekre. A választás nehéznek tűnhet, de érdemes a megfelelő eszközöket és technológiákat használni egy egységes, nagy teljesítményű megoldás létrehozásához. Minden szervezet igényei eltérőek, azonban ajánljuk a következő alapvető adattárház-termékek közelebbi tanulmányozását:

Felhőbeli és hibrid felhőbeli adattárházak

Egy egységes, felhőalapú adattárház-megoldás, például a Azure Synapse Analytics lehetővé teszi a szervezetek számára a gyorsabb és alacsonyabb költségű méretezést, számítást és tárolást.

Adatintegrációs egység

Az ETL-folyamatok lehetővé teszik a felhasználók számára a munkafolyamatok létrehozását, ütemezését és vezénylését a forrásadatok automatikus beépítése, megtisztítása és szabványosítása érdekében.

Objektumtároló

Az objektumtárolási megoldások nagy mennyiségű strukturált, részben strukturált és strukturálatlan adatot tárolhatnak, ami tökéletessé teszi őket a forrásadatok előkészítéséhez, mielőtt betöltené azokat az adattárházba.

Adattárház-eszközök

Az elosztott tárolási megoldások nagy mennyiségű adatot tárolnak oszlopos tárolású relációs táblákban. Ez jelentősen csökkenti a költségeket, javítja a lekérdezési teljesítményt, és felgyorsítja az elemzési időt.

Teljesítménynövelő eszközök

Az alkalmazások teljesítményének növelése érdekében érdemes lehet beépíteni az Apache Spark szolgáltatást, egy nyílt forráskódú párhuzamos feldolgozási keretrendszert, amely támogatja a memórián belüli feldolgozást.

Erőforrások és számítási feladatok kezelése

Az erőforrás-kezelő számítási teljesítményt oszt ki a számítási feladatokhoz, így az adatok ennek megfelelően tölthetők be, elemezhetők, kezelhetők és exportálhatók.

Adatmodellezés

Az adatmodellezés több adatforrást egyesít egyetlen szemantikai modellben, így strukturált, áttekinthető képet nyújt az adatokról.

Üzletiintelligencia-eszközök

Az üzleti elemzési eszközök irányítópultok, jelentések és más vizualizációs eszközök formájában segítenek a felhasználóknak elemzéseket készíteni.

Biztonsági és adatvédelmi funkciók

Az olyan biztonsági és megfelelőségi funkciók, mint az adattitkosítás, a felhasználóhitelesítés és a hozzáférés-figyelés biztosítják az adatok védelmét.

Mi történt az Azure SQL Data Warehouse szolgáltatással?

Az Azure SQL Data Warehouse-hoz társított képességek mostantól az Azure Synapse Analytics dedikált SQL-készletnek nevezett funkciója. A meglévő Azure SQL Data Warehouse-ügyfelek továbbra is futtathatják meglévő Azure SQL Data Warehouse-beli számítási feladataikat az Azure Synapse Analytics dedikált SQL-készlet funkciójával anélkül, hogy módosításokat kellene végrehajtaniuk. Az ügyfelek emellett megkezdhetik a meglévő adattárház-adataik kezelését az Azure Synapse Analytics-szel, hogy kihasználhassák az olyan fejlett elemzési funkciókat, mint a kiszolgáló nélküli adattófeltárás, valamint az integrált SQL- és Apache Spark-motorok™.

Gyakori kérdések

  • Az adattárház strukturált (adatbázistáblák, Excel-munkalapok) és részben strukturált (XML-fájlok, weblapok) adatokat tárol jelentéskészítéshez, elemzéshez és az üzleti intelligencia más formáihoz.

    További információ az adattárházakról

  • Az adattárházak használatának számos előnye van. Egy adattárház például több adatforrást egyesít egyetlen hiteles forrásként, amely segítségével a szervezetek megalapozottabb üzleti és üzemeltetési döntéseket hozhatnak.

    További előnyök kiaknázása

  • Az adattárházak strukturált és részben strukturált adatokat tárolnak, amelyek az adatbányászat, az adatvizualizáció és más speciális BI-használati esetek forrásaként használhatók. Az adattavak különböző típusú nyers adatokat tárolnak, amelyeket aztán az adattudósok különböző projektek forrásául használhatnak.

    További információ az adattavakról

  • Az adattárház általában több szintből áll: az alsó szintből, ahol az adatok gyűjtése és tárolása történik; a középső szintből, ahol az adatok elemzésre kerülnek; és a legfelső szintből, ahol az adatok megjelennek a felhasználók számára.

    Az adattárház-architektúrák ismertetése

  • Az adattárház-infrastruktúra tervezésekor és kiépítésekor fontos figyelembe venni az adatok jellegét és az átalakítás módját. A tipikus kiépítés gyakori elemei közé tartoznak az adatforrások, az átmeneti terület, maga az adattárház, az adatpiacok, a tesztkörnyezetek és a különböző integrációs eszközök.

    Tippek adattárházak létrehozásához

  • A nagyobb szoftvercégek már számos adattárházterméket kínálnak.

    Az adattárház eszközeinek, szoftvereinek és erőforrásainak üzembe helyezése

  • Ezeket a képességeket mostantól a dedikált SQL-készletnek nevezett Azure Synapse Analytics kínálja. A meglévő Azure SQL Data Warehouse-ügyfelek itt továbbra is futtathatják a számítási feladataikat módosítások nélkül.

    További információ az Azure Synapse Analytics szolgáltatásról

Ingyenes fiók

Próbálja ki az Azure felhőalapú számítás szolgáltatásait ingyenesen, akár 30 napig.

Utólagos fizetés

Kezdjen használatalapú fizetéssel. Nincs előzetes kötelezettségvállalás – bármikor lemondhatja.